YSTのクローラーが、ウェブページの巡回・収集を行うと、サーバーのログには、クローラーがアクセスした記録が残ります。YSTのクローラーは原則、crawl.yahoo.netドメインからアクセスしています。

補足
従来のinktomisearch.comドメインやyahoo.comドメインからアクセスするものもありますが、2007年から、crawl.yahoo.netドメインからのアクセスに順次移行しています。
Sitemapsは、ファイルを設置する場所によって、記述できるウェブページが制限されます。たとえばSitemapsがhttp://example.com/catalog/sitemap.xmlに設置されている場合、このSitemapsで記述できるウェブページは、http://example.com/catalog/より下にあるウェブページで、http://example.com/images/で始まるURLのウェブページは、記述することができません。

また、Sitemapsの設置されたドメインと、そのSitemaps内で記述されているウェブページのドメインが異なる場合(Sitemapsをhttp://sitemaps.example.com/sitemap.xmlに設置し、このSitemapsでhttp://www.example.comドメイン内のウェブページの情報を記述している場合など)や、SitemapsとSitemapsで記述されているURLのプロトコルが異なる場合(Sitemapsがhttp://www.example.com/sitemap.xmlに設置されていて、このSitemapsでhttps://www.example.comドメイン内のウェブページの情報を記述している場合など)、原則的にSitemapsを設置できません。
ただし、robots.txtでSitemapsのURLを記述することによって、ドメインが異なるSitemapsを設置できます。

例:Sitemapsがhttp://sitemaps.example.com/sitemap.xmlに設置されていて、http://www.example.com内のウェブページの情報を記述している場合
http://www.example.com/robots.txtで、次のようにサイトマップのURLを記述します。

Sitemap: http://sitemaps.example.com/sitemap.xml
1つのSitemapsでは、最大50,000ページ(ファイルサイズの上限は10MB=10,485,760バイトまで)の情報を検索エンジンに送信でき、ファイルサイズが10MBを超える場合には、サーバーでGzip圧縮を用いて10MB以下に圧縮して送信することもできます。サイトマップで通知するウェブページの総数が50,000ページを超える場合は、複数のSitemapsを作成し、作成した複数のSitemapsをまとめるサイトマップインデックスを作成します。


サイトマップインデックスの記述方法

サイトマップインデックスはUTF-8のエンコードで作成します。
1つのサイトマップの情報は、でくくります。
1つのサイトマップの情報は、SitemapsのURLおよび最終更新日の情報で構成されます。
属性 説明
必須 サイトマップのURLを指定します。Sitemaps形式のファイルだけでなく、Atom形式、RSS形式、テキスト形式のサイトマップURLを指定できます。URLはエンティティのエスケープ処理を行います。
省略可能 サイトマップの最終更新日時を指定します(サイトマップに記載されているウェブページの変更時刻ではありません)。時刻の部分を省略して「YYYY-MM-DD」の形式で記述することもできます。時刻を記述する場合は、W3C Datetime形式(英語、外部サイト)で記述します。
各Sitemapsの情報は、でまとめます。
には、ネームスペース「xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">」の属性を記述します。
」を冒頭の行に追加します。

たとえば、「http://www.example.com/sitemap1.xml」「http://www.example.com/sitemap2.xml」の2つのSitemapsをまとめるサイトマップインデックスは次のように記述します。




http://www.example.com/sitemap1.xml
2008-10-01


http://www.example.com/sitemap2.xml
2008-01-01