MeCabによる単語分割（途中）

先のデータをMeCabで形態素解析して単語に分割し

それをCSVファイルに書き込んでみました。

（これは私個人のデータですが、実際は多くのおそらく何万もの

顧客から店へ寄せられた声（データ）を処理することになるでしょう

その声の多くは何なのか？

そして多くの声の中心にあるものは何なのか？

を知ること企業や店にとって有益に思えます。

もちろんプラスアルファのビッグデータも必要になってくるでしょうが）

コード

# coding: utf-8
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import scipy as sc
import seaborn as sns
import MeCab
import codecs as cd
from collections import Counter

# データをロード
desc_data = pd.read_csv('zine.csv')
desc_data = desc_data["txtdata"]

# MeCab
tagger = MeCab.Tagger('-Ochasen')
word_list = []
counter = Counter()
for text in desc_data:
    nodes = tagger.parseToNode(text)
    while nodes:
        if nodes.feature.split(',')[0] == '名詞':
            word = nodes.surface #.decode('utf-8')
            word_list += [word.split(',')]
            counter[word] += 1
        nodes = nodes.next
for word, cnt in counter.most_common():
    print(word, cnt)

# 単語分割したデータをCSVで保存

wakachi_data = pd.DataFrame(word_list)
wakachi_data.columns = ['wakachi']
wakachi_data.to_csv('wakachi.csv')

結果（一部）

Zine

Unity

新刊

プレゼント

締切

時代

サービスデザインーコンセント

長谷川

氏

登壇

EnterpriseZine

News

号外

濱口

秀司

氏

登壇

決定

開催

ビズジンデイ

経営

戦略

デザイン

EnterpriseZine

News

号外

統計

家

西内

啓

氏

解説

データ

組織

作り方

要件

定義

ワード

現行

機能

網羅

踏襲

EnterpriseZine

News

Web

制作

定番

ホームページ

辞典

クリスマス

簡単

本格

python3Xのブログ

ここでは40代、50代の方が日々の生活で役に立つ情報や私の趣味であるプログラム、Excelや科学に関する内容で投稿する予定です。

MeCabによる単語分割（途中）