Re: ancient fjプロジェクト短信 No.3
ancient fj NetNews archive は、発案後、うまく構成が
できるまでには期間がかかりました。
元データは某 Web サーバから野性的に wget で取って来た
ものです。しかし、そのサーバでは検索や研究の都合で記事に
色々と手を入れていたのです。
http://katsu.watanabe.name/ancientfj/galaxy-format.html
http://katsu.watanabe.name/ancientfj/asks-format.html
作業を始める前は、1週間程度の作業と感じていました。
HTML のマークアップを外して、ファイル名を揃えて、
tar|gzipするぐらいと見ていました。ところが、記事が
原本と異なっていて、しかも不規則な乱れが多かったの
です。そもそも、どのような変化をしているのかさえ
不明だったので、まずは原本が残っている記事を拾い集め、
それと比較して調べることから始めました。まっとうな
アーカイブが構成できるまでは、2年以上かかりました。
make にかかる時間は、50時間だったか、70時間だったか。
記事数は40万本だけなのに。秒あたり2〜3記事程度しか
処理できていません。私が悪い。対象が画像や動画な
わけでもなく、しかも記事の長さって、せいぜい
http://katsu.watanabe.name/article/220.txt
上のような感じなんですよ。
最近発掘された WIDE の CD-ROM(*) は、ニュースの
スプールとして置けるほどに整理されているようなので、
扱いは楽なのではないかと期待しています。
CD-ROM 3巻に分かれているので、3巻の間で Message-ID: に
重なりがないか(巻をまたがってクロスポストされている記事が
ないか)から調べていこうかな。
(*)これ、正確には何て呼ぼうかな。WIDE 自身は、
「fj ニュースCD-ROM」というマンマでベタな書き方してるし。
--
渡邊克宏 http://katsu.watanabe.name
Fnews-brouse 1.9(20180406) -- by Mizuno, MWE <mwe@ccsf.jp>
GnuPG Key ID = ECC8A735
GnuPG Key fingerprint = 9BE6 B9E9 55A5 A499 CD51 946E 9BDC 7870 ECC8 A735