YSTのクローラーは、Robots Exclusion Standard(英語、外部サイト)に従ってウェブページの巡回・収集を行っています。特に1996年のRobots Exclusion Standard(英語、外部サイト)を順守しています。
robots.txtで巡回を拒否する場合は、「robots.txt」という名前でテキストファイルを用意し、下記の内容を記述します。ファイルは、サイトのルートディレクトリに設置してください。
例:
YSTのクローラーによる、サイトで公開されているすべてのウェブページの巡回を拒否する場合
User-agent: Slurp
Disallow: /
補足:YSTのクローラーは「Slurp」というユーザーエージェント名を持っています。
例:
YSTを含む、すべての検索エンジンのクローラーの巡回を拒否する場合
User-agent: *
Disallow: /
「User-agent: *」は、「すべてのクローラー」という意味になります。
特定のディレクトリ内のみの巡回を拒否したい場合は、「Disallow: /」に続いてそのディレクトリ名を指定します。
例:
cgi-binというディレクトリのみを拒否対象にしたいとき
Disallow: /cgi-bin/
巡回の拒否(Disallow:)、クローラーの受け入れ(Allow:)の記述の前には、対象となるクローラーのユーザーエージェント名を記述します。この記述がないときはすべてのクローラーに対する指示(「*」と同様)とみなされます。
また、robots.txtが設置されていない場合、サイトに対する巡回の制限はないものとみなされます。ただし、クローラーは巡回のたびにrobots.txtの有無を確認しており、新たにrobots.txtが設置されていた場合には、ファイルに記載された内容に従って巡回します。ただし、巡回後、インデックスを更新し、検索結果に反映されるまでには時間がかかるため、すぐに設定の内容が反映されるわけではありません。
用語
「ルートディレクトリ」とは、サイトの一番上の階層を指します。
ルートディレクトリ:http://example.com/
ルートディレクトリから1つ下のディレクトリ:http://example.com/foo/
サイトがこのような構造の場合、http://example.com/robots.txtなどとなるように「robots.txt」を保存してください。
ルートディレクトリに任意のファイルを設置できない場合(たとえば、Yahoo!ジオシティーズのホームページ作成サービスを利用している場合。Yahoo!ジオシティーズのルートディレクトリはhttp://www.geocities.jp/ですが、お客さまのホームページはhttp: //www.geocities.jp/△△△/という1つ下のディレクトリからになるため、ルートディレクトリにファイルを保存できません)は、「robots.txt」による巡回拒否はできません。メタタグで、インデックスへの登録拒否を設定してください。
大文字と小文字の区別
Disallow(拒否)、Allow(許可)のあとに記述されたディレクトリ名は、大文字と小文字の違いがあった場合、別のものとして扱います。次のような例では、private、Private、PRIVATEはすべて別々のディレクトリを指定していることになります。
Disallow: /private
Disallow: /Private
Disallow: /PRIVATE
Allowの使い方
「Allow:」は通常「Disallow:」と組み合わせて使用します。たとえば、あるディレクトリのなかの特定のウェブページだけを巡回してほしい場合には、次のように記述します。
Disallow: /foo/
Allow: /foo/bar.html
この例では、「foo」ディレクトリ以下は巡回を拒否するが、/foo/bar.htmlは巡回を許可するという意味を持ちます。
robots.txtで巡回を拒否する場合は、「robots.txt」という名前でテキストファイルを用意し、下記の内容を記述します。ファイルは、サイトのルートディレクトリに設置してください。
例:
YSTのクローラーによる、サイトで公開されているすべてのウェブページの巡回を拒否する場合
User-agent: Slurp
Disallow: /
補足:YSTのクローラーは「Slurp」というユーザーエージェント名を持っています。
例:
YSTを含む、すべての検索エンジンのクローラーの巡回を拒否する場合
User-agent: *
Disallow: /
「User-agent: *」は、「すべてのクローラー」という意味になります。
特定のディレクトリ内のみの巡回を拒否したい場合は、「Disallow: /」に続いてそのディレクトリ名を指定します。
例:
cgi-binというディレクトリのみを拒否対象にしたいとき
Disallow: /cgi-bin/
巡回の拒否(Disallow:)、クローラーの受け入れ(Allow:)の記述の前には、対象となるクローラーのユーザーエージェント名を記述します。この記述がないときはすべてのクローラーに対する指示(「*」と同様)とみなされます。
また、robots.txtが設置されていない場合、サイトに対する巡回の制限はないものとみなされます。ただし、クローラーは巡回のたびにrobots.txtの有無を確認しており、新たにrobots.txtが設置されていた場合には、ファイルに記載された内容に従って巡回します。ただし、巡回後、インデックスを更新し、検索結果に反映されるまでには時間がかかるため、すぐに設定の内容が反映されるわけではありません。
用語
「ルートディレクトリ」とは、サイトの一番上の階層を指します。
ルートディレクトリ:http://example.com/
ルートディレクトリから1つ下のディレクトリ:http://example.com/foo/
サイトがこのような構造の場合、http://example.com/robots.txtなどとなるように「robots.txt」を保存してください。
ルートディレクトリに任意のファイルを設置できない場合(たとえば、Yahoo!ジオシティーズのホームページ作成サービスを利用している場合。Yahoo!ジオシティーズのルートディレクトリはhttp://www.geocities.jp/ですが、お客さまのホームページはhttp: //www.geocities.jp/△△△/という1つ下のディレクトリからになるため、ルートディレクトリにファイルを保存できません)は、「robots.txt」による巡回拒否はできません。メタタグで、インデックスへの登録拒否を設定してください。
大文字と小文字の区別
Disallow(拒否)、Allow(許可)のあとに記述されたディレクトリ名は、大文字と小文字の違いがあった場合、別のものとして扱います。次のような例では、private、Private、PRIVATEはすべて別々のディレクトリを指定していることになります。
Disallow: /private
Disallow: /Private
Disallow: /PRIVATE
Allowの使い方
「Allow:」は通常「Disallow:」と組み合わせて使用します。たとえば、あるディレクトリのなかの特定のウェブページだけを巡回してほしい場合には、次のように記述します。
Disallow: /foo/
Allow: /foo/bar.html
この例では、「foo」ディレクトリ以下は巡回を拒否するが、/foo/bar.htmlは巡回を許可するという意味を持ちます。