Re: Japanese Spam in Big5
In article <YAS.07Dec5114333@kirk.is.tsukuba.ac.jp> yas@is.tsukuba.ac.jp writes:
>> ・コードはBig5(繁体中国語)と宣言されている。
>> ・日本語環境で表示させてみると、8bit部分はBig5文字列の特徴を有している。
>> ・その中にHTMLの「𘚟」の形式(数値文字参照)が大量に混ざり込んでいる。
>> ちなみに、内容は「Big5で記述された日本語」でした。
>> かな文字の部分が全部「数値文字参照」になっていたというわけです。
>漢字の部分は、Big5 をそのまま使ってかなの部分を数値文字参照
>にしたわけですね。敵も考えてはいますね。
本当に「考えた」のかどうか、疑問視してるんですけどね^_^;
文字コードを変換する際に、
unicodeを「中間コード」に使うシステムというのは多々あるだろうと思います。
#MicrosoftWordに一旦読み込ませる方法が該当するのかな?
その際、変換先コードで表現できない文字は数値文字参照にしてしまう
というのは、ごく普通にありそうな処理だと思うのですが、どうでしょう?
#MicrosoftWordの場合は、こうはならないと思いますが^_^;
だとすると、何も考えずに日本語文字列をBig5に変換したら、
上述のようになってしまいますよね。
戸田 孝@滋賀県立琵琶湖博物館
toda@lbm.go.jp
Fnews-brouse 1.9(20180406) -- by Mizuno, MWE <mwe@ccsf.jp>
GnuPG Key ID = ECC8A735
GnuPG Key fingerprint = 9BE6 B9E9 55A5 A499 CD51 946E 9BDC 7870 ECC8 A735