インデックス作成時間、最大インデックスサイズ
> 問題点: 全文検索システムなので(キーワード数が非常に多い)、イ
> ンデックス作成に時間がかかる。
> http://search.namazu.org/ml/avocado/msg01948.html
> http://www.namazu.org/index.html.ja
> 400,000件のニュースであれば、2日(50時間)ほどかかる
> んじゃないかと思います(PentiumII 400MHz、RAM 256MB)。
> その後の追加に関しては速いです。
ちょっと気になったので、再度調べてみたところ、2日(50時間)はかか
らないようです。環境によっても異なるでしょうが、
http://www.namazu.org/ml/namazu-ring/msg00961.html
http://www.namazu.org/ml/namazu-ring/msg00964.html
http://www.yomogi.sakura.ne.jp/~hiro/diary/?200210c&to=200210230#200210230
によれば、単なる予想ですが、400,000件のニュース記事の場合(テキス
トファイル、ファイルサイズが小さい)、工夫すればインデックス作成は
10時間程ですみそうです(PentiumII 400MHz、RAM384MBの場合)。
ただし、Windows9xの場合はトラブルが生じやすいようです。
namazuは、
http://www.namazu.org/events/lc2000s/handout.html#characteristics
} ・複数のインデックスを同時に検索できる
ため、検索可能な最大件数は1個のインデックスに依存しないので、
巨大なインデックスを作る意味はあまりありませんが、
参考までに、最大インデックスサイズ(理論値)は、
http://www.namazu.org/ml/namazu-ring/msg00962.html
によれば、
} ファイル数: 2,048 / 687 * 878,914 = 2,620,110 (約262万)
} 合計サイズ: 2,048 / 687 * 2,167,480,108 = 6,461,425,416 (約 6 Gb)
だそうです。
--
Shuichi YAMAGAMI, Kyoto, JAPAN
yamags@mbox.kyoto-inet.or.jp
Fnews-brouse 1.9(20180406) -- by Mizuno, MWE <mwe@ccsf.jp>
GnuPG Key ID = ECC8A735
GnuPG Key fingerprint = 9BE6 B9E9 55A5 A499 CD51 946E 9BDC 7870 ECC8 A735