テーマ:万能SEO対策
2005年04月01日 20時46分06秒

Google アルゴからくりのヒント情報

SearchEngineWatchフォーラムで 、msgraphがみつけた3/31付の米特許庁データベースの中の、時経データに基づく検索情報 (Information retrieval based on historical data)と題する特許申請データ。 (提出されたのは2003年12月31日)

発明者として名がならぶ中で、Matt Cutts氏はGoogleのシニアソフトエンジニアAnurag Acharya氏はUCSBの助教授ほか。

ちょっとグーグリングしていたら、 Search Engines Patents in 2003というがでてきた。Microsoft、 Google、Yahoo、AltaVista、Inktomi、Overture、Lycosが取得(もしくは提出した)特許のまとめ。

重複文書の検出とか。 で、 サンドボックス現象に関連しているという特許内容にもどると、

ある文書を確認するのに、その文書(ページ)と関連するひとつないし複数含む時経データを取得して確認するシステム。システムは 、部分的であっても、そのひとつもしくは複数の時系データに基づくスコアリングを行う。

とある。

さらに具体的に内容を段階的に要約している箇所で、

[0012] リンクされた文書と関連するリンク経過時間データを計測し、古くなった度合いをベースにリンクされた文書をランクづけする。

[0030] サーチエンジン125は、文書ローケーター310、時経コンポーネント320、そしてランキング・コンポーネント330を含みとする。 ひとつ以上あるローケーター310と時経コンポーネント320は、文書庫340とつながっている。文書庫340はサーチエンジン125がアク セスできるデータベースに、あらかじめクロール、インデックスそしてストアした文書と関連する情報を含む。時経データは文書庫340もし こは別のどこかにストアされているとする。

[0032] 時経コンポーネント320は、文書庫340から、文書に関連する時経データを収集する。時経データには、文書作成日、文書 更新/変更内容、クエリー分析、リンクをベースにしたクリテリア、アンカーテキスト、トラフィック、ユーザーの反応、ドメインに関する情報、 ランキング・ヒストリー、ユーザー側でのデータ(ブックマークなど)、ユニークな単語、ペア文書?二層文書?(bigram)、アンカーフレーズ、独 立したリンク? (linkage of independent peers) ...

文書作成日は、文書そのものが作成された日というよりも、クロールもしくはインデックスされた日であったり、ホスティング・サーバーによる タイム・スタンプの時間であったりもする。

[0037] ドメイン登録日を文書作成日として使うこともある。...

[0038] サーチエンジン125は、文書作成日を文書スコアリングに利用することもある。例えば、文書作成から日が浅く他の文書からリ ンクされていない(あるいは極めて少ない)文書があるとする。文書へのリンク数をベースにしたスコアリングでは、この新しい文書は、バッ クリンク数の多い既存の文書よりも低いスコアになることもある。ただし、日付がその妥当性を考慮された場合は(プラス、もしくはマイナ スに)文書のスコアリングは修正されることもある。

[0039] 昨日の日付で10のバックリンクをもつ文書の例を考えてみる。この文書のスコア(ランキング)は、100バックリンクをもつがすで に10年経っている文書よりもサーチエンジン125によるランキング・スコアは上であるかもしれない。なぜなら前者のリンク増加率は後者 のものより高いから。(ただし)右肩あがりのバックリック増加率は、サーチエンジン1250の文書ランキングづけに用いられる要素であると 同時に、サーチエンジン125への検索エンジンスパムの兆候であるかもしれない。もしそうであるなら、サーチエンジン125はスパム効果 減退のためにその文書のスコアを落とすこともある。

[0083] 文書の変化とバックリンクされるアンカーテキストが著しい変化、またその文書に関連するドメインの性質も大きく変化したとする。ドメインの期限切れもしくはドメインの売買が行われた時におこることがある。...

このあと、ドメインやサンドバック現象に限定されない、Googleアルゴのヒントになる説明が具体性をもって説明されている。

それらが実際にGoogleのアルゴで今現在どのように機能しているかは定かではないけれど、もしそのまま適用されていたとしても、その仕組みにあわせたページをもって意図的なハイ・スコアリングを得るためのページづくりは、時間の経過とその経過途中で蓄積されるデータの変化で常にスコアリングも変化していくもののようだから、理論上は操作できないということだろう。

また、実際にそうした変化がサーチエンジン125サイドで起こるには、ページ/文書へのクロール、再インデックス等がないと起こりようがないと理解するけれど、その肝心のいつクロール、再インデックスされるかの部分は分からない。

うがった見かたをすれば、一度上位にランキングされたなら、目だった変化がON-PAGE/SITE/DOMAINに加えOFF-PAGEでもないほうがロングランにポジションを保持できるんじゃないだろうかと思った。しかし、話題性が高く検索クエリー頻度の高いキーワードが間接的な影響を関連キーワードをもつページに与えるとかは、なんともしようのない部分だから、よく考えたものだと思う。

また、よほどサーチエンジン側が能動的な動きをしない限りは、どうしても偏りができてしまうのではとも思った。システムそのもののロボット化ばかりに偏ったものだと、そもそもスタンダードなクオリティーをもったページとはどんなの?という核になる存在なしで、うごめいているスコアリングの変化のような気もしたりする。基準になるものがもし存在しないデータベースだと、基準ができあがる(そこまでの機能があるかどうかは知らないが)までとてつもなく気の遠くなる時間が必要になるんじゃないだろうか、なんてことも思った。その間は、はやいものがちなページがオーソリティーになることもありうるんじゃなかろうか。

もっとたくさんの箇所を適当訳しようかとも思ったけれど、つかれたのでギブアップ。まっ、たくさん訳しても、読む人も多くないブログだし、誤訳が多かったら申し訳ないし、と翻訳よりも言い訳書くのはスムーズだなと我ながらぼけ感心。

そのうち、だれか、どこかがきちんとした訳と説明してくれるだろう。