IT Rescue IT関連Tips情報

hyperestraier

hyperestraier: estcmd gather の-umオプションによるキーワード抽出

2007年8月8日hyperestraier

hyperestraierでインデクス構築時に,キーワード抽出を同時に行うには % estcmd gather -um -kn 32 index /some/where estcmd extkeys コマンドでは -um を付けるとmecabを利用したキーワード抽出が行われます.estcmd gatherでは -um を付けただけではキーワード抽出は行われません.エラー/警告も出ません. estc …→ 続きを読む

HyperEstraier: インデクスの互換性

2007年6月17日hyperestraier

hyperestraierの異なるバージョン間でのインデクスの互換性の話. hyperestraier-1.4.8をしばらく使っていました.サーバを新しくするのに合わせてhyperestraier-1.4.10にバージョンアップしてみました. 試しに,hyperestraier-1.4.8 & qdbm-1.8.74で作成したインデクスを hyperestraier-1.4.10 &amp …→ 続きを読む

hyperestraier: python native binding のサンプル

2007年4月15日hyperestraier

hyperestraier のpython native bindingを作りました.それのサンプルコードを載せておきます.rubynativeのexamplesをpython nativeのコードに書き直したものです. インデックスに文書をPUTするgather.py # -*- coding: utf-8 -*- try : from _estraiernative import * exce …→ 続きを読む

hyperestraier: python native bindingを作ってみた

2007年4月14日hyperestraier,python&zope

hyperestraierにpythonからアクセスする拡張モジュール(native版)を作ってみたので公開します. 以下の環境で開発しました. – hyperestraier-1.4.8 – qdbm-1.8.74 – Linux 2.4.31(VineLinux3.2), Linux 2.6.9(CentOS4.4) – Python 2.4.2 …→ 続きを読む

hyperestraier: インデックスマージ後の@id属性(2)

2006年10月4日hyperestraier

hyperestraier: インデックスマージ後の@id属性(1)の続報です. hyperestraier-users-ja のMLにて報告したところ,次の日にはこの問題を解決した新バージョンがリリースされました.この問題だけでなく,その他のバグフィックスや新機能追加もされています.早速,バージョン1.4.5をダウンロードしてテストしたところ,確かにインデックスのマージ後の@id属性が正しくなり …→ 続きを読む

hyperestraier: インデックスマージ後の@id属性(1)

2006年10月2日hyperestraier

hyperestraierはバージョン1.3.0からインデックスのマージという機能をサポートしています.マージ後のデータにちょっとした問題を発見しました. 以下にその問題を再現する手順を示します.見易いように少し編集したり,コメントを後から加えています. [yosida@sbt ~/merge]$ estcmd list i0 # i0に1文書 1 file:///home/yosida/merg …→ 続きを読む

hyperestraier 大規模インデックス(400万文書)構築時のテクニック(2)

2006年9月22日hyperestraier

hyperestraier-1.4.0 を使って,400万弱の文書のインデックスを作成しました.前編からご覧ください. さて,400万の文書を80万×5のインデックスに分割し,最後にマージする方法の結果です. 結論から言うと,かなりの高速化を達成しました.前編のときは10日以上経過してもインデックス構築は終了しませんでした.今回の分割・マージ作戦では,約53時間(2日強)で終了しました. 80万文 …→ 続きを読む

hyperestraier 大規模インデックス(400万文書)構築時のテクニック(1)

2006年9月19日hyperestraier

hyperestraier-1.4.0 を使って,400万弱の文書のインデックスを作成しました. estcmd inform の結果は以下のとおりです. number of documents: 3937360 number of words: 1875628 number of keywords: 0 file size: 5161281605 inode number: 8459202 インデ …→ 続きを読む

estwaverの設定ファイル allowrx, denyrx, noidxrx の適用順序

2006年9月13日hyperestraier

allowrx, denyrx, noidxrx の適用順序に関する話. HyperEstraierに付属するWebクローラ estwaver の設定ファイルには,訪問するURL/訪問を禁止するURL/訪問するがインデクスに登録しないURL をそれぞれ正規表現で設定できる. さて,これらの正規表現の複数にマッチするURLの場合,どう解釈されるのか?例えば,設定ファイルに以下のように記述されている場 …→ 続きを読む

_EST_LIBVERと_EST_VERSIONの対応表

2006年9月1日hyperestraier

HyperEstraierのバージョン(_EST_VERSION)とAPIのバージョン(_EST_LIBVER)の対応表を載せておきます. これ以外のバージョンはアーカイブファイルを手元に持ってないので判りません. ============= ============ _EST_VERSION _EST_LIBVER ============= ============ 1.1.6 805 1.2 …→ 続きを読む

HyperEstraier: @uri属性の重複による文書削除

2006年8月6日hyperestraier

@uri属性はデータベース内で一意である必要がある. もし,同一の@uri属性を持つ文書doc1, doc2をdoc1, doc2の順に登録すると,doc1は削除される. しかしながら,doc1に含まれるキーワードで検索した場合にはest_db_search() の結果で得られる文書ID配列には doc1 のIDが含まれる. estcmd optimize を使ってデータベースの最適化を行うと,同 …→ 続きを読む

免責事項

著作権者の文書による承諾を得ずに、本サイトの内容の一部、全部を無断で複写、複製、転載することは、禁じられています。
また、当ウェブサイト に記載された情報の完全性・正確性に対して一切の保証を与えるものではありません。当ウェブサイトに含まれる情報もしくは内容を利用することで直接・間接的に生じた損失に関し一切責任を負わないものとします。