ancient fjプロジェクト短信 No.4
WIDE の CD-ROM (をまとめた太田さんのファイル)を展開しました。
まずは、記事の重複具合をみてみました。
元の CD-ROM は、
(1) 開始〜 1990 年7 月、東京工業大学(titcca)
(2) 1989 年7 月〜 1991 年12 月、NTT
(3) 1992 年1 月〜 1992 年12 月、NTT
の3枚に分かれています。時期が重なっている(1)と(2)では、記事が
重複して収録されているようです。しかし、同一サイトで時期に
重なりのない(2)と(3)の間では、記事に重なりはないでしょうか?
結論:記事に重なりはないようです。しかし、Message-Id: は
重なっていました。つまり、Message-Id: の再利用をしていた
サイトがありました。(RFC が uniqueness を要求している
2年間の間においてでも。)
困ったなあ。アーカイブを利用する段においては、個々の記事を
同定する方法(identity, 主キー)が絶対必要です。「この記事」
って指差せなきゃね。通常は Message-Id: が使えて、現在の
ancient fj でも幸いに uniqueness が保たれていたので
そうしています。ところが今後はそうはいかなくなりました。
どうしようかなあ。
重複の理由は、古いニュースリーダ(readnews, rn, etc.)が
Message-Idを生成する方法のせいと推測します。昔は、Message-Id
のローカルな部分(@ より左の部分)は通し番号になっていました。
この番号は素朴に /usr/lib/news/seq というファイルに収められて
いたと記憶してます。ニュースシステム(当時は Bnews)の再インス
トールでは、これを消さないで保持するようになってはいました。
しかし、OS から入れなおしたり、別な機械へインストールしなおして
ニュースシステムを置き換えれば、通し番号が再び 1 から始まって
容易に Message-Id の重複が起きてしまいます。
...
ということだったはず。
Xref: が残っている記事と残っていない記事が混在していることも
わかりました。このことは、後に細かい所に影響するかもしないかも。
--
渡邊克宏 http://katsu.watanabe.name
Fnews-brouse 1.9(20180406) -- by Mizuno, MWE <mwe@ccsf.jp>
GnuPG Key ID = ECC8A735
GnuPG Key fingerprint = 9BE6 B9E9 55A5 A499 CD51 946E 9BDC 7870 ECC8 A735