<bi44ht$ap7$1@pita.efnet.com>の記事において
tt@efnet.comさんは書きました。

> "Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in message
> news:030822110449.M0203038@psv.hamaint.co.jp...
> > 半年位前から 行われている NoCeN Report ですが、
> > 精度が悪すぎて、役に立っていないと思う。
> 
> 確認したところ、反応された
>     <ncmreport4.x-velveeta-fj.20030822-003237.1.1@news.efnet.com>
> に問題は見当たりませんが…

そう思うのは、たぶん、「精度」とか「役に立つ」という言葉の
解釈が 違うのでしょう。

a. 排除するべき記事を 排除するべきでないと判定する
b. 排除するべきでない記事を 排除するべきと判定する

この二つの割合が多いとき、「精度が悪い」と称しています。
で、さらに細かく言えば、 a. のタイプの誤判定は、多少多くても
比較的許容できるけれども、b. のタイプの誤判定は、それに比べれば
許容されにくい。

a. のタイプの誤判定が 30%あってもそれほど気にならないが、
b. のタイプの誤判定は 1%程度でも いやだ。

> 判定には一部を除き、広く使われている cleanfeed の判定アルゴリズムを
> ほぼそのまま流用しており、その精度が悪すぎるということは、私だけでなく、
> 同じ cleanfeed を採用している全世界のサーバに影響を与える深刻な
> 問題です。一刻も早く調査したいと思いますので、問題があったリポートを
> 具体的に挙げて頂けるよう、お願いいたします。


最近の上のリストに引っかかっているのは、 
fj.sci.math fj.sci.physics fj.soc.politics japan.jiji
にクロスポストされている、
   Re: 天候デリバティブ、キタ━━━━━━(゜∀
というスレッドですが、 どこかの abuser の判定法をそのまま
使っているのかな?

クロスポストの数で判定するなら、
fj.1st-readme 
fj.1st-readme.discussion 
fj.announce  
fj.archives.d 
fj.archives.documents 
にクロスポストされているとか ( アルファベット順に連なっている
ニュースグループへのクロスポスト ... SPAMMER 達はしばしば、
こういうポストをする )、

Follow-up されている記事があるとか無いとか、そういった情報まで
取り込まないと、まともな判定はできないのでは?


... で、この Report が役に立っている人はいるのかな?


桂 英治@(株)横浜インテリジェンス  
(katsura@hamaint.co.jp)