WikipediaのXMLダンプファイルを解析する方法
下記からlibwiki.plをダウンロードする。
https://github.com/jones937/libwiki
解析対象のXMLダンプファイル「jawiki-XXXXXXXX-pages-articles.xml」を下記から落とす。
https://dumps.wikimedia.org/jawiki/
unbzip2 で 拡張子を.xml.bz2から.xmlに変換して、
perl sample_main1.pl jawiki-XXXXXXXX-pages-articles.xml
を実行する。
以上でxmlダンプファイルが解析されてページタイトルなどが表示される。
後は、sample_main1.plを自分の好きなように改造して、解析してください。
