3代目「特許翻訳の世界」 > The HONYAKU Archive Full-Text Search
復刻シリーズです。
かつて、世界中の翻訳者が900名前後集まっている「HONYAKU」という大きなメーリングリストがありました。
このメーリングリストの過去ログを全文検索できたら良いな・・・と思ったことがあり、ならば作ってみよう!ということで「英日対訳 物質名データベース」と全く同じエンジンを使った全文検索システムを作り、無料公開しておりました。
リリース時の最初のデータは、翻訳者であり教師(現在は東京大学の教授)でもあるGALLY Thomas Kilburne(トム・ガリー)さんがメーリングリストのメンバーのために維持管理していたものを、受け継ぎました。
最初の時点ですでに10万件以上のデータがあったのですが、投稿者のメーラーの設定などによって文字コードが違ったり何が違ったりで、データベースに収録したときに文字化けしないように手直しするだけでも、相当に苦戦しています。
このため最初のうちはガリーさんと平行し、彼の過去ログデータにこちらが追いついたところで、メーリングリストへの投稿をデータベースで1日1回ずつ更新する形に切り替えています。
2006年に私が管理をやめた時点で「189,269件」の投稿データがありましたから、毎日相当な量で投稿されていたことは、お分かり頂けると思います。
このシステムは、化合物のデータベースと同じIBMのInfoSearchという全文検索エンジンに、MicrosoftのSQL Serverを組み合わせたものです。
余談ですが、つい最近、仕事で調べものをしているときに、「検索エンジンはいかにして動くのか?」という非常に丁寧な解説資料を見つけました。
著者は「日本IBM株式会社を経て,ヤフー株式会社等で検索エンジンの開発に従事」とのことで、時期から考えても、おそらくInfoSearchを開発なさっていたのだろうと思います。
化合物のときにも書きましたが、これは非常に優秀な検索エンジンで、なくなってしまったのが本当に惜しいのです。
もし、IBMがInfoSearchno製造を終了しなかったら、HONYAKUのメーリングリストの過去ログ検索も、もう少し長く続けたかもしれません。
この過去ログ検索は、これだけで独立したウェブサイトにしてもよいのではないかというほどアクセスがありましたし、廃止するときは、本当に心苦しかったです。
でも、InfoSearchと同じように動く全部検索エンジンが、他になかったのです。
もちろん、値段を問わなければ全くなかったわけではないのですが、他のエンジンはとても個人が自腹で維持できるような金額ではなく、実質的にInfoSearchがオンリーワンでした。
このエンジンが製造&サポート終了となったことが、化合物の対訳データベース、HONYAKU過去ログ、そしてあとから作った国際特許分類の対訳全文検索や理系専門書約3,000冊の検索システムなどを提供終了した、最大の理由です。
この類の翻訳者支援の無料サービスは、可能であれば、いつかもう一度チャレンジしたいです。