はてブ関連エントリ 技術解説 | 本郷ではたらく社長のブログ

はてブ関連エントリ 技術解説

はてなブックマーク関連エントリの技術に関しまして、はてなのnaoya さんと弊社のoxy さん・kzk さんの記事がとても詳しいです。僕は、合宿中は他のチームだったので開発には直接携わってはいないのですが、毎日のミーティングで、どのようなデータを使うと精度がどうなったよという成果報告を聞いていたので、2日目と3日目の精度のかわりようは衝撃的でした。タグを使うとよいというのは、非常に興味深いです。まだ精度面でも調整の余地はありますが、ブックマークした人のデータを使うなどよりも圧倒的に精度がよかったので、方向性は正しいのかな。


今回バックエンドで使っているエンジンは、連想検索エンジン のコアエンジンです。連想検索エンジンでは、文章と、それに含まれている単語を元に連想検索を実現しています。これが、ユーザーとブックマークしているエントリ、という対応になってもよいですし、エントリとその中に含まれているタグという対応になってもよいです。コアエンジンそのものは、疎行列を空間的に効率よく扱って大規模なデータにも対応できるようにした行列計算ライブラリ、みたいなものです。それを応用すると、今回みたいな応用ができるようになります。


PFIみたいな、これまでソフトウェアライセンスのビジネスがメインでやってきた会社だと、いくらいろいろなアルゴリズムを作っても、最後にデータの壁という問題にぶち当たります。Webのデータであればクローリングすればよいのですが、閉じたデータにも、価値の高いものがたくさんあります。たとえば、購買履歴のデータなどもそうですし。データがあれば研究が進むのに、データがないから研究が進まない、ということもよくあります。アメリカでレコメンデーションの研究がものすごい近年進んできているのも、Netflixが商品へのレーティングのデータを無償で公開しているからです。独自サービスをやるという手もありますけど、なかなかいろんな種類のサービスを全部自分たちでやるのは現実的ではないです。ここらへんは、がんばって信頼関係を築いて、一緒にデータの分析を行えるようなスキームを組んでいくしかないと思っています。