最近は少しだけ方向を変えて、自然言語処理に興味を持っています。
人間がデータを集めて、それを機械に学習、処理させるっていうのもいいけど、出来るなら人間のあいまいで大まかな要望を的確に理解してくれて、必要なデータをWeb等から自動的に集めてきてくれたらいいよね~って思ったのがきっかけ。
たとえば「いろんな会社の従業員数と資本金を教えて~」って入力すると、自動的にソフトがWebを巡回して「弊社は○○年に創業し、資本金▽▽円、従業員数××人の企業にまで発展しました」って文章から即座に
社名 A社
資本金 ▽▽
従業員数 ××
ってまとめてくれるとうれしい。エキスパートシステムのように、能力は限定的で良いから。(ソースの確実性を疑う必要があることは言うまでもないが)
ってことで、自然言語処理を学び始めた。
まぁ、まずは環境を整えないといけないなってことで、「入門自然言語処理」を参考に
http://www.nltk.org
へ行こう!
ちなみにこの入門自然言語処理という本、Pythonという言語で非常に丁寧に入門の手助けをしてくれる。
- 入門 自然言語処理/オライリージャパン
- ¥3,990
- Amazon.co.jp
私自身がド素人なので、この本で紹介されているソフトウェアパッケージに頼って学んでいこうと思う。
上のサイトに行くと、サイト右 ”TABLE OF CONTENTS” の ”Installing NLTK” に詳しく環境の整え方が書かれている。
流れとしては。。。
1.Pythonをパイソンしてね!
2.Numpyをインストールしてね!
3.NLTKをインストールしてね!
4.インストールが完了したら、スタートボタン→Python x.x→Python(もしくはIDLE)をクリックしてPythonコマンドラインを立ち上げてね!
5.とりあえず >>> import nltk とタイプして、きちんとNLTKが入れれてるか確認してね!
といった感じ(Windows版)
インストールは簡単に完了するはず。しかし、ここで問題が・・・
>>> import nltk
と打つと、赤色の文字でエラーメッセージがっ!!
ImportError : No module named yaml
そうか。。。なんか良くわからんがyamlのインポートでエラーが発生してるんだな
ってことで、さっそくyamlを http://pyyaml.org/wiki/PyYAML からインストール。Pythonのバージョンごとにyamlがあるから、自分のPythonのバージョンと同じのを選ぼう。
そしてyamlをインストールして再度、Pythonコマンドラインを立ち上げて
>>>import nltk
>>>
おっ、今度はうまくいったみたいだ!下の段に エラーメッセージが表示されることなく">>>"が表示されたし。
これで、必要なソフトは揃えられた。しかし、自然言語処理を学ぶには、処理用の例文とか、いろいろなものがいるのです。
そこで、上記に続けて
>>> nltk.download()
と打ち込んで、必要なデータをダウンロードしましょう。
上記を打ち込んだら、別窓が開いて、そのウィンドウの左下にあるDawnloadボタンを押せばOK
こうして、とりあえずの環境は整った。
ダウンロードが完了したら、とりあえず
>>> from nltk.book import *
と打ってみよう。おそらく、text1, text2.....などの文章がバーっと表示されたはず。
これは、nltkの内部にあるbook(例文の集まり)を全て読み込んで!って命令です。
text1, text2, ...ってのは、それぞれが例文です。
>>>text1
と打つと、text1の題名とワード数が表示されるはず!
こうして、自然言語処理の学習に乗り出す準備が完了した。