ウィキペディアデータのダウンロード、あるいは活用方法について書いてみます。
ウィキペディアは情報量が膨大なだけに辞書としての活用を試みる方も多いと思いますが、いかんせん膨大な情報量だけに取り扱いが結構大変だったりもします。
ウィキペディアデータは一般公開されてはいるものの、その大半は素のまま使えるほど気の利いたものではありません。
アップロード情報や削除情報といった不必要と感じる情報も入ったうえで公開されているからです。
結局、こういった使い道のない情報を削る作業が伴うわけですが、いきなり本番用サーバーにインポートするのは無謀ってもので、一旦、ローカルサーバーにインポートしたうえで、無駄な情報を削ったうえで本番サーバーにインポートするのが賢い方法になるかと・・・。
ウィキペディアのデータは信憑性の有無はさておき、幅広いジャンルにおいて、ありとあらゆる情報が入っているだけに辞書としての役割も、確かに果たせるだけの器量は備えているようで・・・。
巧く活用すれば希薄なコンテンツを補う役割も十分果たしてくれそうな気もします。
手っ取り早い活用方法はスクレイピングに尽きると思うのですが、いかんせん、クロールによるデータ収集はおやめください・・・・的なアナウンスがあるようで・・・。
第三者による投稿によってコンテンツを保持してる分際で何をいまさら・・・みたいな気もしなくもないですが・・・・。
であるならデータをデータベースにぶち込んで使ってやりましょか?・・・・ってことになるわけですが・・・・、そのままぶち込むにはあまりにも無駄な情報が多すぎ。
カスみたいなデータが足かせになるってもんで・・・、そのための編集用のローカルサーバーくらいは用意したほうがよさそうです。
ウィキペディアデータをどう扱うか?
ひとそれぞれだとは思いますが。
辞書的な使い方をするなら、まずはタイトルデータが入ったpage_titleカラムに検索をかけ、ヒットに応じて文章データを引っ張り出す・・・みたいな使い方が妥当ではないかと・・・・。
っていうかほかの使い道が見たたらない・・・。
ご丁寧人ページタイトルと文章データは別テーブルに配置されてるようで・・・・。
この二つを紐づけているのはpage_latestカラム内の数値ってことで・・・、だったらこれを元に一つのテーブル内にページタイトルと文章を集結させてしまえばいい・・・。
・・・ってわけで「INNER JOIN」ってわけです。