考えの整理メモ。
検索結果はコンテンツである。
検索結果は『CGM』。
今回でいうCGMは『Crawling Generated Media.』。
本来で言うCGMのCはconsumerなのですが。
そもそもクローリングとは?
ロボット型検索エンジンがインターネット上にあるプログラムを放ち、webページ情報を収集することをクローリングという。それを行うプログラムをクローラーと呼ぶ。
クローラーはwebサイトのリンクをたどってサイト内の情報を収集し、サイト外リンクをたどってまた他サイトでも同様の事をして、無数にあるwebサイトを探しているロボット。
ロボットが収集した情報は『インデクサ』という別のプログラムでデータベースに登録される。
インデクサは、webページ内のワードの出現率・位置などを解析してデータベースに登録する。
私たちがキーワード検索して、キーワードに紐づくどれだけ『多く、新しいページも』結果表示できるかがクローラーの役割、(量)
膨大なクロールしてきたデータを、どれだけキーワードに『マッチして、アクセスが多く¨メジャー¨なもの』がヒットするように整理して(質)インデックス化(索引化)、表示するかがインデクサの役割。
という事で、検索結果はクローラーとインデクサ(とサーバー)によって成り立つ。
カンファレンスで人力検索mahaloの人が面白い事を言っていた。
『検索結果はコンテンツだ』と。
これは共感しました。
最近はクロール(量)した情報をインデックス(質)したものを(ある程度)自由に使っていいよ、というオープン化が進んで来たので、作り手からすると嬉しい。
ただ、APIも何だかんだ言って色々制限があるし、やっぱり『うちにしかできない事』の要素がないと、突き抜けにくい訳で。
そんなメモをケータイに下書きしていたから、たまたまこんなニュースリリースを見た。
〈リンク〉
キーワード絞り込みで検索結果を出している訳ですが、見ようによってはカスタマイズのリンク集コンテンツにも見える訳で。
この動きを応用すると、行動ターゲも出来ますよね。
とにかく、検索結果はコンテンツという考えが、色々ハラオチして、出張後からマイブーム!