今日は形態素解析について簡単に調てみました。
形態素解析とは
形態素解析とは、私たちが普段生活の中で一般的に使っている言葉、つまり「自然言語」を形態素にまで分割する技術のこと
形態素っていうのは言葉の意味を持つまとまりの最小単位
言葉だとわかりづらい
下記のようなイメージです
「私は台所で料理します」
↓
「私(代名詞)/は(副助詞)/台所(名詞)/で(助詞)/料理(名詞)/し(動詞)/ます(助動詞)」
きっかけ
あーー
毎日学習した内容エクセルにまとめるのだるーー
って思って自動で中身を書けないか調べていたら機械学習して自然言語処理で言葉を予測するようなことを試している方がいて
その中で、まず文章を分解しないといけなくて、形態素解析にたどり着きました。
エクセルの内容は大体テンプレートのような書き方があってその部分の単語だけキーワードを絞って自動で書ければなと考えていました。
まず、そのテンプレートの変更する部分を抽出しなければならないので形態素解析をします。
例えば
今日は○○を学習しました。
という文の○○の部分を抽出して変更できないかを考えています。
動作確認
実際にMecabという形態素解析ツールとpython使ってやってみました。
python初めて使ったんだけどrubyと同じようにかけてすごく簡単でした。
下の文を解析すると
"どうも、私の名前はこんにちはひとしです。"
このようになりました。
['どうも', '副詞', '一般', '*', '*', '*', '*', 'どうも', 'ドウモ', 'ドーモ']
['、', '記号', '読点', '*', '*', '*', '*', '、', '、', '、']
['私', '名詞', '代名詞', '一般', '*', '*', '*', '私', 'ワタシ', 'ワタシ']
['の', '助詞', '連体化', '*', '*', '*', '*', 'の', 'ノ', 'ノ']
['名前', '名詞', '一般', '*', '*', '*', '*', '名前', 'ナマエ', 'ナマエ']
['は', '助詞', '係助詞', '*', '*', '*', '*', 'は', 'ハ', 'ワ']
['こんにちは', '感動詞', '*', '*', '*', '*', '*', 'こんにちは', 'コンニチハ', 'コンニチワ']
['ひとし', '形容詞', '自立', '*', '*', '形容詞・イ段', '文語基本形', 'ひとしい', 'ヒトシ', 'ヒトシ']
['です', '助動詞', '*', '*', '*', '特殊・デス', '基本形', 'です', 'デス', 'デス']
['。', '記号', '句点', '*', '*', '*', '*', '。', '。', '。']
このように分解した文章をどうすればよいか考え中。。。