11月7日の授業では、「茶筅をした形態素解析とテキストマイニング」について学びました!!
「形態素解析」とは何ぞや?と思う人も多いと思うので、簡単に解説します^^
形態素解析とは、コンピュータの計算機を用いた自然言語処理の基礎技術の一つ(Wikipediaより引用)を指します。
例えば、アンケートで自由記述をしてもらい、その文字情報を抜き出す際に利用します。
ただ抜き出すだけでなく、説得力のあるデータに置き換えるのです!!!
説得力のあるデータとはどんなデータでしょう?
もしデータが数値化されていたら...もしデータがグラフ化されていたら...とても見やすいし、伝えようとしている情報を的確につかむことができますよね!!
そういったものが説得力のあるデータになるわけです。
では実際にどのようにテキストマイニングを行っていくのか。
以下に簡単な手順を記載しておきましょう^^
①キーワードの整形
a. キーワードの並び替え
b. 表現の統一化(*あいまいな表現が複数ある場合、統一する)
②ヒストグラム化
a. 度数の入力(*基本的には「1」を使用する。)
b. ピボットテーブル(*複数の情報を一度にデータ化し、情報をまとめる)
c. 並び替え(集められた情報を並び替え、情報を整理する)
d. グラフの作成(たくさんの文字情報をまとめ、ヴィジュアル化し、説得力のある、付加価値のあるデータを提供する)
主にこの2つの作業が軸になります。
授業で取り上げた例をみてみましょう^^
授業では、「理想のワインとはどんなワインですか」という設問のアンケートに対する自由回答のテキストマイニングを行いました。
それをまとめたExcelファイルには、文字情報が乱立しており、すばやく情報を抜きだすことは容易ではありません。(解答例:手が届かない、おいしいがあまり高価でないもの、手に入らないものなど)
まずは、これらをもっとシンプルな文字情報でまとめます。
解答例のはじめは、「手が届かない」ですが、これは値段のことについての言及ですね。つまり、正確には「手が届かない値段」と記載して、情報をより正確化します。
このように、他にも解答は様々ありますが、ここでは割愛します。
そして、その作業が終わったら、次はキーワードを系統の似た者同士で区分します。
例えば、「イタリア、シャンパーニュ、ブリュット」などは全て地方の名前ですよね。
なので、この3つは同じジャンルの言葉としてまとめることができます。
そうしてまとめ終えたら、度数を入力します。これは、そのキーワードの数を調べるためです。
*基本的には「1」を入力します。
そしてそれができたら、次はピボットテーブルを使用します。
これによって、多くの情報を一度に整理し、同じものは自動的に仕分けをしてくれます。(さすがですね^^)
そして、それができたらグラフを作成。これで一連の流れは終了となります。
また、ただグラフを作成して発表するのではなく、そこに自分の考察を加えることを忘れずに。
それがなければ調べたことに対するただの発表になってしまいます><
ここまで、テキストマイニングの流れを説明してきましたが、やっぱり実施訓練が必要だなと思いました。
タイピングと同じように、やればやるだけ自分のものになる。
逆にやらなければ忘れていく。
パソコンって本当に怖いです
そんなことを思った今日この頃でした~^^
次回をこうご期待