Path: ccsf.homeunix.org!ccsf.homeunix.org!news1.wakwak.com!news2.wakwak.com!not-for-mail From: yamags@mbox.kyoto-inet.or.jp (Shuichi YAMAGAMI) Newsgroups: fj.sys.mac Subject: PersonalなNetnews記事(数十万個程度)検索システム Date: Sun, 3 Aug 2003 00:06:57 +0000 (UTC) Organization: WAKWAK Internet service Lines: 91 Distribution: fj Message-ID: References: NNTP-Posting-Host: z247.219-103-193.ppp.wakwak.ne.jp Mime-Version: 1.0 Content-Type: Text/Plain; charset=ISO-2022-JP X-Trace: news2.wakwak.com 1059869217 67164 219.103.193.247 (3 Aug 2003 00:06:57 GMT) X-Complaints-To: abuse@wakwak.com NNTP-Posting-Date: Sun, 3 Aug 2003 00:06:57 +0000 (UTC) X-Newsreader: WinVN 0.99.7J PL01 (x86 32bit) Xref: ccsf.homeunix.org fj.sys.mac:153 > お手軽に、Leafnode+とnamazuを組合わせて使えれば便利ですが... > http://konosiro.phys.saga-u.ac.jp/~makino/Linux/old_contents/Linux-leafnode.htm l Netnews記事の検索システムについて考えてみました。 一応個人用ということで、Netnews記事が数十万個程度の検索システムに 限定し、ポイントを以下の点におきました。 1. 数十万個(400,000〜500,000)程度のNetnews記事を対象とする 2. すばやく検索するためインデックスを作成する 3. できるだけ楽に検索システムを作る 3.1 簡単にソフトウェアをインストールしたい 3.2 Netnews記事の初回取込み、以後の取込みも簡単に 3.3 インデックス作成、メンテナンスも簡単に 4. フリーのシステムであればうれしい 5. 多くを望まない 6. 多くのOSに対応しているほうがよい 以上の観点から、一応以下のような結論になりました。 # インターネット接続はADSLを前提としました。 # WindowsでSlrnpullのみ検証。MacOS Xは未検証。 a. Netnews記事の取込みには、Slrnpullを使用 # http://one-of-all.ges.de/doc/packages/slrn/slrnpull/ メリット: - Netnews記事の取込みスピードがかなり速い。 # 約700記事/分 - 設定が簡単 - 次回の取込み(新規記事のみ取込み)時のスピードが非 常に速い(activeファイルを使用するため)。 - Unix(MacOSXを含む)、Windows(MS-DOSプロンプト)対応 設定例(Windowsの場合): slrnpull.conf ----- default 50000 10000 fj.sys.mac fj.sys.mac.os-x authinfo ----- your account password getnews.bat ----- slrnpull -d spool -h News.CIS.DFN.DE : -d SPOOLDIR Spool directory to use. : -h HOSTNAME Hostname of NNTP server to connect to. Slrn for MacOS X (SlrnpullはSlrnに含まれています) http://slrn.sourceforge.net/index.html#sect_getslrn http://www.kutilek.de/technik/news-macosx http://www.mynetcologne.de/~nc-schuelfe/slrn/ # SlrnpullもMacOS Xでコンパイルできると思います(未検証)。 b. 検索システムにはnamazuを使用 メリット: - Slrnpullで取り込んだ記事に手を加えず、そのままイン デックス化可能。 - Unix(MacOSXを含む)、Windows対応 - 拡張性あり(cgi、文書フィルタ等) 問題点: 全文検索システムなので(キーワード数が非常に多い)、イ ンデックス作成に時間がかかる。 http://search.namazu.org/ml/avocado/msg01948.html http://www.namazu.org/index.html.ja 400,000件のニュースであれば、2日(50時間)ほどかかる んじゃないかと思います(PentiumII 400MHz、RAM 256MB)。 その後の追加に関しては速いです。 全文検索システム Namazu http://www.namazu.org/index.html.ja NAMAZU on Darwin (MAC OS X) http://www.namazu.org/ml/namazu-users-ja/thrd17.html#01642 c. スレッド表示には適当なonline Newsreaderを併用 namazuではスレッド表示はできません。 連動はできませんが、適当なonline Newsreaderを併用すれば便利。 Slrnpullは、約700記事/分、つまり約40,000記事/時のスピードでデータを 取り込むので、たとえば、初回取り込み時に10時間かければ、約400,000記 事を取り込めます(次回の取り込みは、通常数分〜数十分)。2G〜3G程度 のハードディスク空き容量が必要です。 参考までに、publicなNewsServer news.media.kyoto-u.ac.jpのNewsgroup で多数の記事が含まれているのは、一例をあげれば、 fj.life.in-japan: 約66,000個 fj.soc.politics: 約39,000個 fj.sys.mac: 約5,000個 fj.os.linux: 約4,400個 -- Shuichi YAMAGAMI, Kyoto, JAPAN yamags@mbox.kyoto-inet.or.jp