人気コンテンツ今日: |
Solaris | Hyper Estraierのクローラestwaverを使う(全文検索システム)sasaki 月曜, 2008-06-30 16:36
社内のイントラネット用にクローラestwaverを利用する。
■クロール用のルートディレクトリを作成するestwaverコマンドに引数initとディレクトリ名を指定して実行する。 $ cd $HOME crawl_dir 内に設定ファイル等が作成される。
■_confファイルを設定する$HOME/crawl_dir/_conf を編集する。 seed: 1.0|http://www.intra.com/ seed: 1.0 重み付け。1.0のままでよい。 seeddepth: 5 5階層の深さのディレクトリまでクロールする。 language: 1 0は英語。1は日本語。 allowrx: GoogleやYahooのクローラのようにリンク先を全てクロールしてしまうので、イントラに限定したいときには、URLを指定する。 [^/]*\. の意味は、/ から始まらず、適当な文字列***、ドット。 docnum: 100000 10万ドキュメントを上限。
■ドキュメントをクロール(収集)する$ estwaver crawl -revcont $HOME/crawl_dir crawl_dir/_index/ ディレクトリにインデックスが作成される。
■テストするtestという文字を検索してみる。 $ estcmd search -vs $HOME/crawl_dir/_index "test"
■cgiからインデックスを使えるようにするcgi-bin/estseek.conf を編集する。 indexname: /export/home/intra/crawl_dir/_index
■cronで実行するcronで定期実行させるようにして、作業完了。 クロールしている最中は、インデックスを利用できない。つまり検索できない状態なので、インデックスのコピーを利用するようにcgi-bin/estseek.conf を設定しておくとよい。
■Solarisの引っ越しSPARCからx86 Solarisへへの引っ越しの際は、ルートディレクトリをもう一度作り直すこと。(estwaver initコマンドを発行する)
印刷用 | カウント(64)
|
Solarisamazon広告英語お勧め教材! 英語の学校でも使っているのですが、1つのストーリーを3分で読めて、内容も面白く、もっと早く出会いたかった本です。 Apple好きで英語も勉強したいならこの一冊! 天気情報ブログパーツ |