hyperestraier 大規模インデックス(400万文書)構築時のテクニック(2)
 2006.09.22

hyperestraier-1.4.0 を使って,400万弱の文書のインデックスを作成しました.前編からご覧ください. さて,400万の文書を80万×5のインデックスに分割し,最後にマージする方法の結果です. 結論から言うと,かなりの高速化を達成しました.前編のときは10日以上経過してもインデックス構築は終了しませんでした.今回の分割・マージ作戦では,約53時間(2日強)で終了しました. 80万文書のインデックスを5個分構築するのにかかった時間は,約16時間.この処理には,文書をインデックスに登録する処理(estcmd gather)とキーワードデータベースを構築する処理(estcmd extkeys)が含まれています.ただし,単語の頻度データベース(estcmd words)は,前編のときに作成したものを用いましたので,頻度データベースを生成する時間は含まれていません. そして,5インデックスをマージする処理(estcmd merge)にかかった時間は,約37時間となりました.5つインデックスのうち一つを主インデックスとみなし,残り4つのインデックスを主インデックスにマージしました. estcmd merge を実装してくれた平林さん.ありがとう.スバラシイ.
カテゴリー:hyperestraier