google先生の技術者たち②

昨日は突如仕事が降ってきてしまい、仮面ライダーしかアップできなかったきさぶろうです。もう休みの日にメールしてくるのやめほしいよ、社長。

結局徹夜してそのまま出勤しました。あまりに眠かったんで、昼休み3時間とってグースカ寝てやった。こういう融通が利くとこが好きだな、うちの会社。

では、google先生の話の続きでも。そうそう、あくまできさぶろうはまだSEOなんて何の実績もありませんから、技術者視点での推測っすからね。

検索エンジンはスパイダとかクローラとか呼ばれるボット（bot）をネット上に放って、リンクをたどってhtmlドキュメントに代表されるテキストファイルをひたすら集めてくる。

それを検索エンジンが持つデータベースに次々放り込んでいく。これをキャッシュといいます。

ネットユーザーが検索エンジンで検索ボタンをクリックすると、その情報（クエリ）が検索エンジンのデータベースサーバに飛んでいき、サーバが一生懸命関連するhtmlドキュメント探して、結果を投げ返してくる。

それをIEなんかのブラウザで受信して、画面に描画したものをユーザーは見ていると。

じゃあ数百万ある関連ドキュメントの中から、ユーザーが求める情報を返すにはどうしたらいいか？

当時の検索エンジンの技術者がまず考えたのは、「ユーザーが打ち込んだキーワードをたくさん含んでいる文書は、そのキーワードに関連深いに違いない」でした。

単純明快でわかりやすいモデルですが、これではスパム業者の標的になってしまうのも至極当然です。かくして、

「クレジットカードクレジットカードクレジットカードクレジットカードクレジットカードクレジットカードクレジットカードはこちら」

なんていう気持ち悪い検索結果が山のように出てくることに。あげくの果てにはワードサラダなんていう、意味のない単語をひたすら並べるサイトなんかも現れる始末。

検索エンジン側も躍起になって、発見次第削除、通報があったら削除、とにかく削除とがんばってはみるものの、数が多すぎてとても対応できませんでした。

技術者たちも必死になって順位付けのアルゴリズムを改良していきますが、コンピュータに言語の「意味」を理解させることが不可能な以上（これは現在の技術でも不可能です）、技術的にどうこうできるものではありません。

こうした閉塞状況を打破しようと、googleの創始者であるラリーページが満を持して世に放ったのが、リンクポピュラリティという概念です。

理屈はとても簡単で、「他のサイトからリンクを貰っているということは、そのサイトは”人間の目から見て”すばらしいコンテンツを含んでいると推測できる。そういうサイトにはポイントを与えて上位に表示させよう」というもの。

なるほど、これは名案。これなら、人間がチェックしているとみなすことができるのですから、より良い検索結果を表示することができる。一件落着！

しかし、人間の目に頼らなければコンテンツの質を判断できないということを、他ならぬgoogle自身が認めてしまいました。

技術者だけではこの問題は解決できないと。

googleのエンジニアは一度、敗北しているんですね。

つづく

SEきさぶろうのアフィリエイト挑戦記録とか

しょっちゅう来るヘンテコなソフトの開発依頼。どうやらアフィリエイトなどのネットビジネスに使うらしい。ということでホントに稼げるのか使ってみた日記。ときどき政治の話とかも。

google先生の技術者たち②