コンピューターのGoogle検索をすると、クエリ(問い合わせ)に一致するウェブページを見つけ表示する。
ウェブ検索は、あらゆる情報の場所を正確に記述した優れた索引を備えた大型書籍を参照するようなもの。ユーザーがGoogle検索を実行すると、GoogleのプログラムがGoogleのインデックスを確認し、最も関連性の高い検索結果を特定して表示(提供)する。
検索結果の表示は主に3つの工程(プロセス)から成る。
1:クロール・・・Googleがサイトを認識して検出する
2:インデックス作成・・・Googleがサイトのインデックスを作成する
3:検索結果の表示・・・ユーザーの検索と関連する有益なコンテンツのサイトを表示する
クロール
クロールは、GooglebotがGoogleのインデックスに追加する、新しいページや更新されたページを検出する。
Googleでは、大規模なコンピュータ群を使用して、ウェブ上の数十億のページを取得(クロール)する。
取得プログラムは「Googlebot」「ロボット」や「スパイダー」とも呼ばれる。
Googlebotはアルゴリズムによるプロセスを使用する。
クロールするサイト、クロールの頻度、各サイトから取得するページ数はコンピュータプログラムによって決定される。
クロールを開始する際は、前回のクロールで生成され、ウェブマスターから提供されたサイトマップによって補強された、ウェブページのURLリストを使用する。Googlebotはこれらのウェブサイトすべてにアクセスし、各ページのリンクを検出してクロール対象ページのリストに追加したり、新しいサイトや既存のサイトへの変更、無効なリンクを検出し、この情報でGoogleインデックスを更新する。
Googleでは、有料AdWordsサービスと検索サービスは区別して対応しているが、有料で利益を得るサイトだからといって、クロールを増やしたりはしていない。
インデックス作成
Googlebotはクロールした各ページを処理し、検出したすべての単語とページ上の場所を登録した大規模なインデックスを作成する。さらに、titleタグやalt属性などの主要なコンテンツタグや属性に含まれる情報も処理する。
Googlebotではすべてが処理できる訳ではなく、一部のリッチメディアファイルや動的ページのコンテンツは処理できない。
検索結果の表示
ユーザーがクエリを入力すると、インデックスで一致するページが検索され、関連性が高いと判断された検索結果が返される。
特定のページの関連性は、PageRankなど200を超える要素によって決まる。PageRankはページの重要性を示すもので、他のページからの参照リンクに基づいて決まる。別のサイトからの個々のリンクがサイトのPageRankに寄与され、リンクはすべて同等に扱われない。Googleでは、不正なリンクや検索結果に悪影響を及ぼす行為を特定していて、コンテンツの品質に基づいて作成されるリンクが最も重視される。
検索結果ページでサイトが上位に表示されるようにするには、Googleでサイトを正しくクロールし、インデックスに登録できるようにする必要がある。
Googleの「もしかして」や「オートコンプリート」は、ユーザーの時間を節約する機能で使用されるキーワードは、Googleのウェブクローラと検索アルゴリズムによって自動生成される。
Googleの検索アルゴリズムでサイトのコンテンツがクエリに密接に関連していると判断されると、そのクエリに対してサイトが上位にランクされる。
参照先:Google 検索の仕組み
https://support.google.com/webmasters/answer/70897?hl=ja