IT Rescue IT関連Tips情報

hyperestraier 大規模インデックス(400万文書)構築時のテクニック(2)

2006年9月22日hyperestraier

hyperestraier-1.4.0 を使って,400万弱の文書のインデックスを作成しました.前編からご覧ください.
さて,400万の文書を80万×5のインデックスに分割し,最後にマージする方法の結果です.

結論から言うと,かなりの高速化を達成しました.前編のときは10日以上経過してもインデックス構築は終了しませんでした.今回の分割・マージ作戦では,約53時間(2日強)で終了しました.

80万文書のインデックスを5個分構築するのにかかった時間は,約16時間.この処理には,文書をインデックスに登録する処理(estcmd gather)とキーワードデータベースを構築する処理(estcmd extkeys)が含まれています.ただし,単語の頻度データベース(estcmd words)は,前編のときに作成したものを用いましたので,頻度データベースを生成する時間は含まれていません.

そして,5インデックスをマージする処理(estcmd merge)にかかった時間は,約37時間となりました.5つインデックスのうち一つを主インデックスとみなし,残り4つのインデックスを主インデックスにマージしました.

estcmd merge を実装してくれた平林さん.ありがとう.スバラシイ.


コメントをどうぞ

免責事項

著作権者の文書による承諾を得ずに、本サイトの内容の一部、全部を無断で複写、複製、転載することは、禁じられています。
また、当ウェブサイト に記載された情報の完全性・正確性に対して一切の保証を与えるものではありません。当ウェブサイトに含まれる情報もしくは内容を利用することで直接・間接的に生じた損失に関し一切責任を負わないものとします。