こないだインストールしたnamazuで検索結果がおかしいと苦情がきた。
確認したところ以下のような現象が発生していた。
・検索キーにHITしないページが存在する。
・検索結果でHITしたページの文章の最初に特定の文字列が付与されている。
とりあえず調べてみると・・・
まず「検索キーにHITしないページが存在する」の件はOSの文字コードが原因でした。
「LANG="en_US.UTF-8"」となっていたのでインデックスを作成するshellの中に「ja_JP.ecuJP」と
変更させるようにしたら検索されなかったページも表示可能になりました。
なんかLANGが日本語でないとmecabの解析が失敗するようで検索できないケースが発生するようです。
また「検索結果でHITしたページの文章の最初に特定の文字列が付与されている」これはホント悩んだんだけど、
結論から書くとインデックス作成時のコマンドに「-x」オプションを指定することで解決。
結果として「要約」が表示されていたみたいなのですが結局何の文字列を持ってきてるんだろう?