> 問題点: 全文検索システムなので(キーワード数が非常に多い)、イ
>         ンデックス作成に時間がかかる。
>         http://search.namazu.org/ml/avocado/msg01948.html
>         http://www.namazu.org/index.html.ja
>         400,000件のニュースであれば、2日(50時間)ほどかかる
>         んじゃないかと思います(PentiumII 400MHz、RAM 256MB)。
>         その後の追加に関しては速いです。

ちょっと気になったので、再度調べてみたところ、2日(50時間)はかか
らないようです。環境によっても異なるでしょうが、
http://www.namazu.org/ml/namazu-ring/msg00961.html
http://www.namazu.org/ml/namazu-ring/msg00964.html
http://www.yomogi.sakura.ne.jp/~hiro/diary/?200210c&to=200210230#200210230
によれば、単なる予想ですが、400,000件のニュース記事の場合(テキス
トファイル、ファイルサイズが小さい)、工夫すればインデックス作成は
10時間程ですみそうです(PentiumII 400MHz、RAM384MBの場合)。
ただし、Windows9xの場合はトラブルが生じやすいようです。

namazuは、
http://www.namazu.org/events/lc2000s/handout.html#characteristics
} ・複数のインデックスを同時に検索できる 
ため、検索可能な最大件数は1個のインデックスに依存しないので、
巨大なインデックスを作る意味はあまりありませんが、
参考までに、最大インデックスサイズ(理論値)は、
http://www.namazu.org/ml/namazu-ring/msg00962.html
によれば、
} ファイル数: 2,048 / 687 * 878,914       =     2,620,110 (約262万)
} 合計サイズ: 2,048 / 687 * 2,167,480,108 = 6,461,425,416 (約 6 Gb)
だそうです。

-- 
Shuichi YAMAGAMI, Kyoto, JAPAN
yamags@mbox.kyoto-inet.or.jp