引き続き WIDE の CD-ROM の中身を少しずつ見ています。記事を
読んでいるのではなく、規格から外れたものがないか、衛生検査の
ようなことをしています。

ancient fj では、規格外の記事をみつけても、なるべく修正を
しない方針でいます。歴史家がどこに目を付けるかわかりません。
いや、歴史家だったら二次的なアーカイブよりも原本にあたろうと
努力してくれるかな?修正する際は、なるべくヘッダに修正メモを
残しています。

現在のアーカイブは、荒れたデータを基に記事を再構成したので、
不本意な修正箇所が多くなってしまいました。データの壊れ方が
不規則なので、壊れている部分の発見が大変で、発見のためだけに
年単位の長い時間がかかったようなものです。

WIDE の CD-ROM はおおむね綺麗です。文字化けのようなものの
ために、Message-ID 中にスペースが入っている記事を1個発見
しました。これの Message-ID はつけかえることになるでしょう。

Date: フィールドは、一部に何年もずれているものがあります。
それでも全部 parse できたのだからキレイでしょう。現在の
アーカイブの元データでは、そもそも parse できない Date: が
続出でした。確か JAIST のアーカイブでも、parse できない
ものがあったと思います。JAIST のものは、記事を月ごとに
.tar.gz にまとめてありますが、parse できないと 1900 年
あたりに分類してたんだっけかな?

WIDE CD-ROM 中の記事の順番は、Date: フィールド順ではなく、
記事が実際に流通した順番のようです。Date: フィールドが大きく
ずれている記事も、当該スレッドの中途にそしらぬ顔で納まって
います。しかし、他のアーカイブとの併合の際に Date: フィールド
で並べ替えてしまうと、きっとその記事だけ遠い遠い所に順番が
飛ばされるでしょう。いたしかたありません。

-- 
渡邊克宏 http://katsu.watanabe.name