【 Excelでプログラム連携、インターネットアクセスを行う 】
今回ご紹介するテーマは形態素解析です。
Excelから他プログラム連携、もしくはインターネットアクセス事例で形態素解析のプログラム
【 形態素解析って何? 】
皆さんは、『形態素解析』ってご存じですか?
簡単にいうと、日本語の文章を名詞や動詞に分解する「解析」です。
例えば、『今日はよく晴れています』を形態素解析すると、
(Yahooの形態素解析によれば)
今日:名詞
は:助詞
よく:副詞
晴れ:動詞
て:助詞
い:助動詞
ます:助動詞
となります。
【 形態素解析のツール 】
形態素解析をするためには専用の解析ツールを使いましょう。
ここでは、MeCab※1と Yahooのサービス※2を使ったサンプルをご紹介します。
MeCabは、プログラムをパソコンにインストールして利用します。
Yahooは、インターネット上のサービスの利用です。
※1:http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
※2:http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html
形態素解析ツールそれぞれで、微妙に解析結果が異なるのが面白いところです。
先ほどの、『今日はよく晴れています』を上のそれぞれで解析してみた結果はこうなります。#品詞への分解は同じですね。
今回は、MeCabに対しては入力をコマンドラインで、出力は少し面倒ですが、MeCabから結果ファイルを一度はき出して、それを読み込んで分類する方法をとっています。MeCabには他にも連携方法がありますが、今回は最も簡単な方法をとりました。
Yahoo形態素解析に対しては、GETリクエストを投げて、その応答を待つという、他のWEBサイトのリクエスト処理と同じオーソドックスなものです。
【 形態素解析で業務用語を抜き出す 】
では、こういった形態素解析を普段の業務でどのように使えばよいのでしょうか?
私がトライしたのは、会社の文書を大量に読み込ませて、そこからその会社や業界、事業特有の用語を抜き出して、辞書化をすることでした。
「業務用語=名詞が二つ以上連続している用語」という仮定で処理を進めました。
例えば、用語「パッケージソフト」だと形態素解析結果は
パッケージ:名詞
ソフト:名詞
で、ばらばらにしても意味がありませんが、つなげた状態では業務用語っぽくみえますよね。
課題は、わかっていたことですが、99%以上のノイズをいかに取り除くかです。
以前のブログでも紹介しています。
http://ameblo.jp/mirai-ex/theme-10071650164.html