新城@筑波大学情報です。こんにちは。

In article <cd54h4$lcm$1@caraway.media.kyoto-u.ac.jp>
        Yoshitaka Ikeda <honeypot@4bn.ne.jp> writes:
> honeypotを利用したspam対策実験を行うことにしました。
> これは、
> 特定のメールアドレスあてのメールを蓄積し
> cronを使って、bsfilterのspamデータベースを更新するものです。

面白そうですね。

> honeypot: /home/user_a/newspams
> 0 * * * * /home/user_a/bsfilter -s --mbox /home/user_a/newspams;rm 
> /home/user_a/newspams;/home/user_a/bsfilter -u

ベイズの定理を使うものだと、spam だけ学習させても、うまくな
いんじゃないかなあ。私はそこそこ学習させたもので、判定率も満
足いくレベルになっていてるので、普段は学習をやめています。

時々、週に1回より少ないくらい、「このやろう!」と思った 
spam だけ学習させて、あと、同時に正当なメールが spam と判定
されないことを確かめています。この時正当なメールが spam と判
定されたら、逆方向に学習させています。

bsfilter って、単語の数が増えてくると、遅くなるのだとは思い
ますが、どのくらい数が適当なんでしょうか。

あと、spam というと、いくつか持っているアドレスで .forward 
で転送していると、別々のアドレスに同じ内容のものが次々と来る
んですよね。こんな感じ。
------------------------------------------------------------
1024  07/19 d_gregory_cq@citd  $39757<<Hi, We sent you an email a while ago, be
1025  07/19 rae.kflemingif@st  $85145<<Hi, We sent you an email a while ago, be
1026  07/19 jboone_ed@diagram  $85145<<Hi, We sent you an email a while ago, be
------------------------------------------------------------

To: は全部違います。内容は、同じ。$85145 とか工夫しているけ
ど、bsfilter で検出できています。だから、別に bsfilter で問
題ないといえばそうなんだけど、同じ物が複数届くと怪しいという
情報も使えばまた面白い対策が取れるのではないかと思ったのでし
た。

さっき、溜めている spam のフォルダを MH-e で表示しようとした
ら、3ヶ月で 10000 万通越えていて、表示できませんでした。と
いうことは、1日100通くらい。

\\ 新城 靖 (しんじょう やすし) \\
\\ 筑波大学 電子・情報       \\