古代ローマの情報を収集したくて、WikipediaのクローラーをRubyで作成した
クローラー=Webを自動で巡回するプログラム。
代表的なのはGoogle先生のやつ
Rubyいいな。
以前、「Rubyは大クラス主義」といった文章読んで興味持ってたけど、確かに書いてて楽しい
Rubyと大クラス主義とダックタイピング、そして名前重要
俺はクローラーとか専門じゃないんだけど
とりあえず10~30秒に1回アクセスという、とてもWikipediaに優しいクローラーにしてある
なんか1秒に1回っていうサーバにとってはふつーだろという頻度で訴えられた人いるらしいし・・・・
間隔がランダムなのはサーバ管理者に目をつけられないための少しでもの抵抗
まぁRubyのRandomクラスそのままだから統計取られたら一目瞭然ですが
しかも48時間くらい定期的にアクセスしまくるWikipediaマニアはそうそういないはず
とりあえず、やっぱりこの人だろうと
「ユリウス・カエサル」
からスタート。この人につながる人を順番に探し回るわけです。
でも、最初は古代ローマ人限定で収集しようと思っていたのですが、
日本語の記事が思いのほか少ないようで、すぐに限界に到達したので制約を解除
本格的に古代ローマを収集したいなら、やっぱ英語のほうをクロールしないとだめなようす
しかし、「こいつは古代ローマ人か」なんてプログラムの判定を考えたのは初めて
現在は、とりあえず近代以前の歴史上の人たちを集めたいから、1900年以前にしてる
エドワードさんだけでも、結構いるんだなぁ、と

しばらくのんびりクロールさせてたところ、6000人くらいの歴史上の人物の情報を集めた
いろんな情報がとってこうれそうで楽しみ
たとえば、「**王」って異名の人を列挙したら何が出てくるんだろう?
とかそういうの。楽しみ