ancient fj NetNews archive は、発案後、うまく構成が
できるまでには期間がかかりました。

元データは某 Web サーバから野性的に wget で取って来た
ものです。しかし、そのサーバでは検索や研究の都合で記事に
色々と手を入れていたのです。
  http://katsu.watanabe.name/ancientfj/galaxy-format.html
  http://katsu.watanabe.name/ancientfj/asks-format.html

作業を始める前は、1週間程度の作業と感じていました。
HTML のマークアップを外して、ファイル名を揃えて、
tar|gzipするぐらいと見ていました。ところが、記事が
原本と異なっていて、しかも不規則な乱れが多かったの
です。そもそも、どのような変化をしているのかさえ
不明だったので、まずは原本が残っている記事を拾い集め、
それと比較して調べることから始めました。まっとうな
アーカイブが構成できるまでは、2年以上かかりました。


make にかかる時間は、50時間だったか、70時間だったか。
記事数は40万本だけなのに。秒あたり2〜3記事程度しか
処理できていません。私が悪い。対象が画像や動画な
わけでもなく、しかも記事の長さって、せいぜい
  http://katsu.watanabe.name/article/220.txt
上のような感じなんですよ。



最近発掘された WIDE の CD-ROM(*) は、ニュースの
スプールとして置けるほどに整理されているようなので、
扱いは楽なのではないかと期待しています。

CD-ROM 3巻に分かれているので、3巻の間で Message-ID: に
重なりがないか(巻をまたがってクロスポストされている記事が
ないか)から調べていこうかな。

(*)これ、正確には何て呼ぼうかな。WIDE 自身は、
「fj ニュースCD-ROM」というマンマでベタな書き方してるし。
-- 
渡邊克宏 http://katsu.watanabe.name