先のデータをMeCabで形態素解析して単語に分割し
それをCSVファイルに書き込んでみました。
(これは私個人のデータですが、実際は多くのおそらく何万もの
顧客から店へ寄せられた声(データ)を処理することになるでしょう
その声の多くは何なのか?
そして多くの声の中心にあるものは何なのか?
を知ること企業や店にとって有益に思えます。
もちろんプラスアルファのビッグデータも必要になってくるでしょうが)
コード
# coding: utf-8
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import scipy as sc
import seaborn as sns
import MeCab
import codecs as cd
from collections import Counter
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import scipy as sc
import seaborn as sns
import MeCab
import codecs as cd
from collections import Counter
# データをロード
desc_data = pd.read_csv('zine.csv')
desc_data = desc_data["txtdata"]
# MeCab
tagger = MeCab.Tagger('-Ochasen')
word_list = []
counter = Counter()
for text in desc_data:
nodes = tagger.parseToNode(text)
while nodes:
if nodes.feature.split(',')[0] == '名詞':
word = nodes.surface #.decode('utf-8')
word_list += [word.split(',')]
counter[word] += 1
nodes = nodes.next
for word, cnt in counter.most_common():
print(word, cnt)
tagger = MeCab.Tagger('-Ochasen')
word_list = []
counter = Counter()
for text in desc_data:
nodes = tagger.parseToNode(text)
while nodes:
if nodes.feature.split(',')[0] == '名詞':
word = nodes.surface #.decode('utf-8')
word_list += [word.split(',')]
counter[word] += 1
nodes = nodes.next
for word, cnt in counter.most_common():
print(word, cnt)
# 単語分割したデータをCSVで保存
wakachi_data = pd.DataFrame(word_list)
wakachi_data.columns = ['wakachi']
wakachi_data.to_csv('wakachi.csv')
wakachi_data.columns = ['wakachi']
wakachi_data.to_csv('wakachi.csv')
結果(一部)
| Zine | ||||||||||
| Unity | ||||||||||
| 新刊 | ||||||||||
| プレゼント | ||||||||||
| 締切 | ||||||||||
| AI | ||||||||||
| 時代 | ||||||||||
| サービスデザインーコンセント | ||||||||||
| 長谷川 | ||||||||||
| 氏 | ||||||||||
| 登壇 | ||||||||||
| EnterpriseZine | ||||||||||
| News | ||||||||||
| 号外 | ||||||||||
| 濱口 | ||||||||||
| 秀司 | ||||||||||
| 氏 | ||||||||||
| 登壇 | ||||||||||
| 決定 | ||||||||||
| 12 | ||||||||||
| / | ||||||||||
| 14 | ||||||||||
| 開催 | ||||||||||
| ビズジンデイ | ||||||||||
| 経営 | ||||||||||
| 戦略 | ||||||||||
| デザイン | ||||||||||
| EnterpriseZine | ||||||||||
| News | ||||||||||
| 号外 | ||||||||||
| 統計 | ||||||||||
| 家 | ||||||||||
| 西内 | ||||||||||
| 啓 | ||||||||||
| 氏 | ||||||||||
| 解説 | ||||||||||
| データ | ||||||||||
| 組織 | ||||||||||
| 作り方 | ||||||||||
| 要件 | ||||||||||
| 定義 | ||||||||||
| NG | ||||||||||
| ワード | ||||||||||
| 現行 | ||||||||||
| 機能 | ||||||||||
| 網羅 | ||||||||||
| 踏襲 | ||||||||||
| EnterpriseZine | ||||||||||
| News | ||||||||||
| 12 | ||||||||||
|
||||||||||