Ceterum autem censeo, Carthaginem esse delendam

Ceterum autem censeo, Carthaginem esse delendam

古代ローマとか歴史とかプログラミングとか

Amebaでブログを始めよう!

ここ1ヶ月、忙しくて分析はあとまわしでした


とりあえずデータだけ集め続けて、ようやく人物データは5万5千人くらいあつまってます


ほんと分析しないとあんまり意味の無いデータなんですが・・・・


とりあえず今分かること





Wikipediaから5万5千人のデータを集めた段階で、データ量の多い人たち




Ceterum autem censeo, Carthaginem esse delendam




同じ人が複数回、違うタイトルでエントリーされてるのが難ですが。





やはりというか、チャーチルが人気者ですね


ビスマルクとかビクトリア女王とか、ディズレーリ、グラッドストン、ナポレオン3世も。


この辺の人たちは、調べるといろいろゴロゴロ出てきそうな人たちっぽいですね




古代ローマの情報を収集したくて、WikipediaのクローラーをRubyで作成した




クローラー=Webを自動で巡回するプログラム。




代表的なのはGoogle先生のやつ




Rubyいいな。




以前、「Rubyは大クラス主義」といった文章読んで興味持ってたけど、確かに書いてて楽しい




Rubyと大クラス主義とダックタイピング、そして名前重要




俺はクローラーとか専門じゃないんだけど




とりあえず10~30秒に1回アクセスという、とてもWikipediaに優しいクローラーにしてある




なんか1秒に1回っていうサーバにとってはふつーだろという頻度で訴えられた人いるらしいし・・・・




間隔がランダムなのはサーバ管理者に目をつけられないための少しでもの抵抗




まぁRubyのRandomクラスそのままだから統計取られたら一目瞭然ですが




しかも48時間くらい定期的にアクセスしまくるWikipediaマニアはそうそういないはず





とりあえず、やっぱりこの人だろうと


「ユリウス・カエサル」


からスタート。この人につながる人を順番に探し回るわけです。




でも、最初は古代ローマ人限定で収集しようと思っていたのですが、




日本語の記事が思いのほか少ないようで、すぐに限界に到達したので制約を解除




本格的に古代ローマを収集したいなら、やっぱ英語のほうをクロールしないとだめなようす




しかし、「こいつは古代ローマ人か」なんてプログラムの判定を考えたのは初めて




現在は、とりあえず近代以前の歴史上の人たちを集めたいから、1900年以前にしてる




 




エドワードさんだけでも、結構いるんだなぁ、と




 




VSLMのブログ-歴史上のエドワードさんたち




VSLMのブログ-古代ローマクローラー稼動の図







しばらくのんびりクロールさせてたところ、6000人くらいの歴史上の人物の情報を集めた




 




いろんな情報がとってこうれそうで楽しみ





たとえば、「**王」って異名の人を列挙したら何が出てくるんだろう?





とかそういうの。楽しみ