ancient fj プロジェクト短信 No.5
引き続き WIDE の CD-ROM の中身を少しずつ見ています。記事を
読んでいるのではなく、規格から外れたものがないか、衛生検査の
ようなことをしています。
ancient fj では、規格外の記事をみつけても、なるべく修正を
しない方針でいます。歴史家がどこに目を付けるかわかりません。
いや、歴史家だったら二次的なアーカイブよりも原本にあたろうと
努力してくれるかな?修正する際は、なるべくヘッダに修正メモを
残しています。
現在のアーカイブは、荒れたデータを基に記事を再構成したので、
不本意な修正箇所が多くなってしまいました。データの壊れ方が
不規則なので、壊れている部分の発見が大変で、発見のためだけに
年単位の長い時間がかかったようなものです。
WIDE の CD-ROM はおおむね綺麗です。文字化けのようなものの
ために、Message-ID 中にスペースが入っている記事を1個発見
しました。これの Message-ID はつけかえることになるでしょう。
Date: フィールドは、一部に何年もずれているものがあります。
それでも全部 parse できたのだからキレイでしょう。現在の
アーカイブの元データでは、そもそも parse できない Date: が
続出でした。確か JAIST のアーカイブでも、parse できない
ものがあったと思います。JAIST のものは、記事を月ごとに
.tar.gz にまとめてありますが、parse できないと 1900 年
あたりに分類してたんだっけかな?
WIDE CD-ROM 中の記事の順番は、Date: フィールド順ではなく、
記事が実際に流通した順番のようです。Date: フィールドが大きく
ずれている記事も、当該スレッドの中途にそしらぬ顔で納まって
います。しかし、他のアーカイブとの併合の際に Date: フィールド
で並べ替えてしまうと、きっとその記事だけ遠い遠い所に順番が
飛ばされるでしょう。いたしかたありません。
--
渡邊克宏 http://katsu.watanabe.name
Fnews-brouse 1.9(20180406) -- by Mizuno, MWE <mwe@ccsf.jp>
GnuPG Key ID = ECC8A735
GnuPG Key fingerprint = 9BE6 B9E9 55A5 A499 CD51 946E 9BDC 7870 ECC8 A735