検索技術
Amebaでブログを始めよう!

Berkeley DB

キーと値を保持するデータベース。
昔はperlから使っていた。最近はJava版やXMLに対応した版が存在するようだ。
非常に高速である。JavaにおけるMapの内容をファイルシステムにおいたまま扱えると言えばわかりやすいだろうか。
一般のRDBMSのようなトランザクション処理もあるようだが、最近の状況はあまりウォッチしていないため、詳細は不明である。

Sleepycat Software: Berkeley DB Database, Native XML Database, Native Java Database

Google 電網打尽のインターネット掌握術

『THE MISSING MANUALシリーズ
Google― 電網打尽のインターネット掌握術
Sarah Milstein, Rael Dornfest 著
村上 雅章 訳
2004年11月30日 発売予定
384ページ
定価2,520円
ISBN4-87311-212-5
原書: Google: The Missing Manual』
oreilly.co.jp -- Online Catalog: Google

Google Deskbar API公開

Google DeskbarとはWindowsのタスクバーに張り付いて動作する検索アプリケーション。そのAPIが公開されている。

『With the Google Deskbar API, you can write plug-ins to add your own features to the Google Deskbar. Plug-ins can be written in any .NET language, such as C# or Visual Basic.NET.』
Google Deskbar Help

全文検索とデータベース検索の違い

全文検索とは、Googleに見られるように、ファイル(URL)の中身からテキスト情報を抜き出したものを蓄積し、横断的に探せるようにしたもののである。情報の抜き出し方によって、いくつかのアプローチがある。人間の手をかけずにファイルを集められるよう、ロボットとかクローラと呼ばれるソフトウェアが収集を行う。ほとんどは無償で利用できるのではないだろうか。
データベース検索とは、DIALOGのように、人手をかけ、データに属性をつけて蓄積したもの。蓄積の方法はサービスごとに異なる。特定のジャンルに特化したものが多い。有償であることがほとんどで、コピーなど、関連するサービスを併せて行っていることが特徴的である。かつてはコマンドラインインターフェースと呼ばれる、ターミナルソフトウェアを使って文字ベースで検索の指示や結果の受け取りを行うことが多かったが、最近はさすがにブラウザで行えるようになっているのがほとんどだ(と思う)。

Googleが日本語翻訳β版を開始

これも先週(11/19)のトピック。
検索結果のURLが英語ページだった場合[このページを訳す BETA]という表示が現れ、日本語に訳した表示がなされる。

Googleが学術文献検索 Scholar β版を開始

少し遅ればせながらのトピック。
http://scholar.google.com/から検索できる。
一時期CrossRefを検索できるようになっていたが、そのあたりの結果をまとめたものかも。
引用文献の関連づけが行われているのは注目に値する。論文だけでなく、書籍なども関連づけが行われており、これが自動的なものであるとすれば優れた技術であるといえよう。