MeCabによる単語分割(途中) | python3Xのブログ

python3Xのブログ

ここでは40代、50代の方が日々の生活で役に立つ情報や私の趣味であるプログラム、Excelや科学に関する内容で投稿する予定です。

先のデータをMeCabで形態素解析して単語に分割し

それをCSVファイルに書き込んでみました。

(これは私個人のデータですが、実際は多くのおそらく何万もの

顧客から店へ寄せられた声(データ)を処理することになるでしょう

その声の多くは何なのか?

そして多くの声の中心にあるものは何なのか?

を知ること企業や店にとって有益に思えます。

もちろんプラスアルファのビッグデータも必要になってくるでしょうが)

コード

# coding: utf-8
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import scipy as sc
import seaborn as sns
import MeCab
import codecs as cd
from collections import Counter

# データをロード
desc_data = pd.read_csv('zine.csv')
desc_data = desc_data[
"txtdata"]
# MeCab
tagger = MeCab.Tagger('-Ochasen')
word_list = []
counter = Counter()

for text in desc_data:
    nodes = tagger.parseToNode(text)
   
while nodes:
       
if nodes.feature.split(',')[0] == '名詞':
            word = nodes.surface
#.decode('utf-8')
            word_list += [word.split(',')]
            counter[word] += 1
        nodes = nodes.next

for word, cnt in counter.most_common():
   
print(word, cnt)
# 単語分割したデータをCSVで保存
wakachi_data = pd.DataFrame(word_list)
wakachi_data.columns = [
'wakachi']
wakachi_data.to_csv(
'wakachi.csv')
結果(一部)
Zine
Unity
新刊
プレゼント
締切
AI
時代
サービスデザインーコンセント
長谷川
登壇
EnterpriseZine
News
号外
濱口
秀司
登壇
決定
12
/
14
開催
ビズジンデイ
経営
戦略
デザイン
EnterpriseZine
News
号外
統計
西内
解説
データ
組織
作り方
要件
定義
NG
ワード
現行
機能
網羅
踏襲
EnterpriseZine
News
12
05
Web
制作
定番
ホームページ
辞典
/
クリスマス
簡単
本格