Re: Japanese Spam in Big5

From(投稿者):	yas@is.tsukuba.ac.jp (Yasushi Shinjo)
Newsgroups(投稿グループ):	fj.comp.security,fj.mail,fj.kanji
Subject(見出し):	Re: Japanese Spam in Big5
Date(投稿日時):	05 Dec 2007 02:43:33 GMT
Organization(所属):	Institute of Information Sciences and Electronics, University of Tsukuba
References(祖先記事, 一番最後が直親):	(G) <071205104938.M0128109@nanyanen.lbm.go.jp>
Message-ID(記事識別符号):	(G) <YAS.07Dec5114333@kirk.is.tsukuba.ac.jp>
Followuped-by(子記事):	(G) <071208084410.M0132167@nanyanen.lbm.go.jp>

From(投稿者):

yas@is.tsukuba.ac.jp (Yasushi Shinjo)

Newsgroups(投稿グループ):

fj.comp.security,fj.mail,fj.kanji

Subject(見出し):

Re: Japanese Spam in Big5

Date(投稿日時):

05 Dec 2007 02:43:33 GMT

Organization(所属):

Institute of Information Sciences and Electronics, University of Tsukuba

References(祖先記事, 一番最後が直親):

(G) <071205104938.M0128109@nanyanen.lbm.go.jp>

Message-ID(記事識別符号):

(G) <YAS.07Dec5114333@kirk.is.tsukuba.ac.jp>

Followuped-by(子記事):

(G) <071208084410.M0132167@nanyanen.lbm.go.jp>

記事全体へのコマンド

新城＠筑波大学情報です。こんにちは。

In article <071205104938.M0128109@nanyanen.lbm.go.jp>
        toda@lbm.go.jp writes:
> 先日、当方に到達したSpamが以下のようなものでした。
> ・コードはBig5（繁体中国語）と宣言されている。
> ・日本語環境で表示させてみると、8bit部分はBig5文字列の特徴を有している。
> ・その中にHTMLの「&#99999;」の形式（数値文字参照）が大量に混ざり込んでいる。
> ちなみに、内容は「Big5で記述された日本語」でした。
> かな文字の部分が全部「数値文字参照」になっていたというわけです。

漢字の部分は、Big5 をそのまま使ってかなの部分を数値文字参照
にしたわけですね。敵も考えてはいますね。

ただ、「Big5 & 数値文字参照 & それがかな」というルールで弾く
のは簡単そう。単一ツールでできると便利ですけれど。

> ＃GB2312（簡体中国語）には「かな文字」があるんですが、Big5には無いようです。

そういう事情ですか。

> 最近、メールサーバにSpamフィルタが入って、
> かなりの精度でSpamがサーバに留まるようになったんですが、
> 流石にこれは内容解析ができなかったようです^_^;

私のベイズ・フィルタは、bi-gram 使っているはずだけど、それだ
と文字コード関係なくガリガリやってしまっているのでしょう。で
も、本当に聴いているかどうかはよくわからないなあ。

＼＼　新城　靖　（しんじょう　やすし）　＼＼
＼＼　筑波大学　電子・情報　　　　　　　＼＼

Fnews-brouse 1.9(20180406) -- by Mizuno, MWE <mwe@ccsf.jp>
GnuPG Key ID = ECC8A735
GnuPG Key fingerprint = 9BE6 B9E9 55A5 A499 CD51 946E 9BDC 7870 ECC8 A735