検索エンジンについてあれこれ書くSEOブログ -19ページ目

存在しないウェブページが巡回される

存在しないウェブページを表示しようとしたときに、サーバーが「HTTP 200 OK」のステータスを返してエラーページを表示する設定にしていると、クローラーはエラーページとみなさず、巡回を続けます。

存在しないウェブページを表示しようとしたときには、サーバーが「HTTP 404 Not Found」のステータスを返すように設定を行ってください。
また、このような設定ができない場合には、エラーページのHTMLのheadに、メタタグを使ったインデックス拒否の設定を行ってください。

このような場合とは別に、YSTのクローラーは、「HTTP 404 Not Found」のステータスを返さないサイトに、無作為に作成したURLでリクエストを行うことがあります。こうして存在しないウェブページに対するレスポンスの情報を集め、インデックスに残っている存在しないウェブページの情報を削除しています。
このチェックは、1つのサーバーに対して10URLを上限として実施していますが、頻繁に行われる処理ではありません。

削除したウェブページが巡回され続ける

削除したURLのウェブページにアクセスしたときに「HTTP 200 OK」のステータスを返すようにサーバーが設定されている場合、クローラーは削除されたウェブページと認識できず、そのウェブページを巡回し続ける可能性があります。
削除されたウェブページが巡回され続けるときには、サーバーが「HTTP 404 Not Found」のステータスを返すように設定されているかを確認してください。

また、このような設定ができない場合には、エラーページのHTMLのheadに、メタタグを使ったインデックスへの登録拒否の設定を行ってください。

クローラー名（ユーザーエージェント名）の確認方法

YSTのクローラーは、robots.txtやメタタグの記述に従ってウェブページの巡回・収集を行っていますが、インターネット上では、robots.txtやメタタグの記述に従わずにウェブページの巡回・収集を行ったり、ユーザーエージェント名を偽装してウェブページの巡回・収集をするクローラーが存在します。挙動の不審なクローラーで、「Slurp」「Yahoo! Slurp」などのクローラー名（ユーザーエージェント名）を持つアクセスログが見受けられた場合には、次の方法でYSTのクローラーであるかどうかを確認してください。

アクセスログのユーザーエージェント名とIPアドレスを確認します。YSTのクローラーの場合、ユーザーエージェント名は「Slurp」「Yahoo! Slurp」「Slurp/2.0」「Slurp/3.0」です。
ドメインネームサーバー（DNS）を使って、IPアドレス（例：74.6.29.31）からホスト名（ドメイン名）を確認してください。
ホスト名が「crawl.yahoo.net」「inktomisearch.com」もしくは「yahoo.com」で終わっているかどうかを確認してください（手順2の例では、lj511021.crawl.yahoo.net）。これらのドメインで終わっていないホストからのアクセスは、YSTのクローラーを偽装しています。
DNSを使って、手順3で取得したホスト名からIPアドレスを確認します。このIPアドレスが手順2のIPアドレスと異なる場合、ユーザーエージェント名は偽装されています。
DNSルックアップの方法

DNSルックアップでIPアドレスやドメインを確認するもっとも簡単な方法は、「コマンドプロンプト」（Windows OSに標準のアプリケーション。［スタート］-［アクセサリ］-［コマンドプロンプト］を選択して起動）や「ターミナル」（Mac OS Xに標準のアプリケーション。Finderで［アプリケーション］フォルダ - ［ユーティリティ］フォルダを開き、「ターミナル.app」をダブルクリックして起動。）を使う方法です。

「コマンドプロンプト」（Windows OSの場合）や「ターミナル」（Mac OS Xの場合）を起動します。
「nslookup {IPアドレス}」を入力し、Returnキー（Enterキー）を押します。上記の例では、「nslookup 74.6.29.31」と入力します。
ドメインが表示されます。
「nslookup {ドメイン}」を入力し、Returnキー（Enterキー）を押します。上記の例では、「nslookup lj511021.crawl.yahoo.net」と入力します。
IPアドレスが表示されます。

サーバーでのアクセス制限の際の注意点

サーバーでクローラーのアクセス制限を行う場合には、Yahoo! Inc.やYahoo! JAPANのデータセンターやネットワークが変更されたときに設定変更を行わないですむよう、IPアドレスによるアクセス制限ではなく、前述のDNSを参照したアクセス制限をおすすめします。

また、ユーザーエージェント名を偽装するようなクローラーは、robots.txtなどの記述に従いません。このようなクローラーの巡回を拒否する方法については、ご利用のサーバー管理者にお問い合わせください。