【 Excelから形態素解析のプログラムを呼び出す 】 | Excelで業務改善や業務システム連携を支援、5時間作業を5分に効率アップ!

Excelで業務改善や業務システム連携を支援、5時間作業を5分に効率アップ!

excelや業務システム連携を業務に合わせて最適化、業務効率改善を実現する、中小企業診断士です。
5時間かかるexcelファイルの集計を5分以内に短縮するノウハウをご提供いたします。ソフトウェアの開発方法論や体系立てたシステム開発経験も合わせて提供いたします。

【 Excelでプログラム連携、インターネットアクセスを行う 】

今回ご紹介するテーマは形態素解析です。

Excelから他プログラム連携、もしくはインターネットアクセス事例で形態素解析のプログラム


【 形態素解析って何? 】

皆さんは、『形態素解析』ってご存じですか?

簡単にいうと、日本語の文章を名詞や動詞に分解する「解析」です。

例えば、『今日はよく晴れています』を形態素解析すると、
(Yahooの形態素解析によれば)
今日:名詞
は:助詞
よく:副詞
晴れ:動詞
て:助詞
い:助動詞
ます:助動詞
となります。


【 形態素解析のツール 】

形態素解析をするためには専用の解析ツールを使いましょう。

ここでは、MeCab※1と Yahooのサービス※2を使ったサンプルをご紹介します。

MeCabは、プログラムをパソコンにインストールして利用します。
Yahooは、インターネット上のサービスの利用です。

※1:http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html
※2:http://developer.yahoo.co.jp/webapi/jlp/ma/v1/parse.html


形態素解析ツールそれぞれで、微妙に解析結果が異なるのが面白いところです。


先ほどの、『今日はよく晴れています』を上のそれぞれで解析してみた結果はこうなります。#品詞への分解は同じですね。


        MeCabの結果                  Yahooの結果

   MeCab と Yahoo の結果

【 Excelとの連携方法 】

今回は、MeCabに対しては入力をコマンドラインで、出力は少し面倒ですが、MeCabから結果ファイルを一度はき出して、それを読み込んで分類する方法をとっています。MeCabには他にも連携方法がありますが、今回は最も簡単な方法をとりました。

Yahoo形態素解析に対しては、GETリクエストを投げて、その応答を待つという、他のWEBサイトのリクエスト処理と同じオーソドックスなものです。



【 形態素解析で業務用語を抜き出す 】

では、こういった形態素解析を普段の業務でどのように使えばよいのでしょうか?

私がトライしたのは、会社の文書を大量に読み込ませて、そこからその会社や業界、事業特有の用語を抜き出して、辞書化をすることでした。

「業務用語=名詞が二つ以上連続している用語」という仮定で処理を進めました。
例えば、用語「パッケージソフト」だと形態素解析結果は
パッケージ:名詞
ソフト:名詞
で、ばらばらにしても意味がありませんが、つなげた状態では業務用語っぽくみえますよね。


課題は、わかっていたことですが、99%以上のノイズをいかに取り除くかです。


以前のブログでも紹介しています。

http://ameblo.jp/mirai-ex/theme-10071650164.html