PersonalなNetnews記事(数十万個程度)検索システム
> お手軽に、Leafnode+とnamazuを組合わせて使えれば便利ですが...
>
http://konosiro.phys.saga-u.ac.jp/~makino/Linux/old_contents/Linux-leafnode.htm
l
Netnews記事の検索システムについて考えてみました。
一応個人用ということで、Netnews記事が数十万個程度の検索システムに
限定し、ポイントを以下の点におきました。
1. 数十万個(400,000〜500,000)程度のNetnews記事を対象とする
2. すばやく検索するためインデックスを作成する
3. できるだけ楽に検索システムを作る
3.1 簡単にソフトウェアをインストールしたい
3.2 Netnews記事の初回取込み、以後の取込みも簡単に
3.3 インデックス作成、メンテナンスも簡単に
4. フリーのシステムであればうれしい
5. 多くを望まない
6. 多くのOSに対応しているほうがよい
以上の観点から、一応以下のような結論になりました。
# インターネット接続はADSLを前提としました。
# WindowsでSlrnpullのみ検証。MacOS Xは未検証。
a. Netnews記事の取込みには、Slrnpullを使用
# http://one-of-all.ges.de/doc/packages/slrn/slrnpull/
メリット: - Netnews記事の取込みスピードがかなり速い。
# 約700記事/分
- 設定が簡単
- 次回の取込み(新規記事のみ取込み)時のスピードが非
常に速い(activeファイルを使用するため)。
- Unix(MacOSXを含む)、Windows(MS-DOSプロンプト)対応
設定例(Windowsの場合):
slrnpull.conf
-----
default 50000 10000
fj.sys.mac
fj.sys.mac.os-x
authinfo
-----
your account
password
getnews.bat
-----
slrnpull -d spool -h News.CIS.DFN.DE
: -d SPOOLDIR Spool directory to use.
: -h HOSTNAME Hostname of NNTP server to connect to.
Slrn for MacOS X (SlrnpullはSlrnに含まれています)
http://slrn.sourceforge.net/index.html#sect_getslrn
http://www.kutilek.de/technik/news-macosx
http://www.mynetcologne.de/~nc-schuelfe/slrn/
# SlrnpullもMacOS Xでコンパイルできると思います(未検証)。
b. 検索システムにはnamazuを使用
メリット: - Slrnpullで取り込んだ記事に手を加えず、そのままイン
デックス化可能。
- Unix(MacOSXを含む)、Windows対応
- 拡張性あり(cgi、文書フィルタ等)
問題点: 全文検索システムなので(キーワード数が非常に多い)、イ
ンデックス作成に時間がかかる。
http://search.namazu.org/ml/avocado/msg01948.html
http://www.namazu.org/index.html.ja
400,000件のニュースであれば、2日(50時間)ほどかかる
んじゃないかと思います(PentiumII 400MHz、RAM 256MB)。
その後の追加に関しては速いです。
全文検索システム Namazu
http://www.namazu.org/index.html.ja
NAMAZU on Darwin (MAC OS X)
http://www.namazu.org/ml/namazu-users-ja/thrd17.html#01642
c. スレッド表示には適当なonline Newsreaderを併用
namazuではスレッド表示はできません。
連動はできませんが、適当なonline Newsreaderを併用すれば便利。
Slrnpullは、約700記事/分、つまり約40,000記事/時のスピードでデータを
取り込むので、たとえば、初回取り込み時に10時間かければ、約400,000記
事を取り込めます(次回の取り込みは、通常数分〜数十分)。2G〜3G程度
のハードディスク空き容量が必要です。
参考までに、publicなNewsServer news.media.kyoto-u.ac.jpのNewsgroup
で多数の記事が含まれているのは、一例をあげれば、
fj.life.in-japan: 約66,000個
fj.soc.politics: 約39,000個
fj.sys.mac: 約5,000個
fj.os.linux: 約4,400個
--
Shuichi YAMAGAMI, Kyoto, JAPAN
yamags@mbox.kyoto-inet.or.jp
Fnews-brouse 1.9(20180406) -- by Mizuno, MWE <mwe@ccsf.jp>
GnuPG Key ID = ECC8A735
GnuPG Key fingerprint = 9BE6 B9E9 55A5 A499 CD51 946E 9BDC 7870 ECC8 A735