新城@筑波大学情報です。こんにちは。

In article <071205104938.M0128109@nanyanen.lbm.go.jp>
        toda@lbm.go.jp writes:
> 先日、当方に到達したSpamが以下のようなものでした。
> ・コードはBig5(繁体中国語)と宣言されている。
> ・日本語環境で表示させてみると、8bit部分はBig5文字列の特徴を有している。
> ・その中にHTMLの「&#99999;」の形式(数値文字参照)が大量に混ざり込んでいる。
> ちなみに、内容は「Big5で記述された日本語」でした。
> かな文字の部分が全部「数値文字参照」になっていたというわけです。

漢字の部分は、Big5 をそのまま使ってかなの部分を数値文字参照
にしたわけですね。敵も考えてはいますね。

ただ、「Big5 & 数値文字参照 & それがかな」というルールで弾く
のは簡単そう。単一ツールでできると便利ですけれど。

> #GB2312(簡体中国語)には「かな文字」があるんですが、Big5には無いようです。

そういう事情ですか。

> 最近、メールサーバにSpamフィルタが入って、
> かなりの精度でSpamがサーバに留まるようになったんですが、
> 流石にこれは内容解析ができなかったようです^_^;

私のベイズ・フィルタは、bi-gram 使っているはずだけど、それだ
と文字コード関係なくガリガリやってしまっているのでしょう。で
も、本当に聴いているかどうかはよくわからないなあ。

\\ 新城 靖 (しんじょう やすし) \\
\\ 筑波大学 電子・情報       \\