KH Coderで文章を分析してみる | れぽれろのブログ

れぽれろのブログ

美術、音楽、本、日常のことなどを思いつくままに・・・。

KH Coderというテキストデータの分析ツールが無償で公開されています。
http://khcoder.net/

テキストーデータから、文章の頻出語句の抽出や、登場語句の関連性などを分析することのできるツールです。ライセンスフリーで、ソフトウェアをダウンロードして誰でも使用できるとのこと。
学術目的であれ商業目的であれ、自由に使用できるソフトウェアです。かなり面白い分析ができるツールです。
今回はこのソフトを使って、当ブログの過去1年間の記事を分析し、遊んでみることにします。(学術目的でも商業目的でもありませんが、遊興目的でもとくに怒られることはないはず? 笑。)

分析対象は当ブログの過去1年間の記事、2019年11月から2020年10月24日(先週)の記事までです。れぽれろのブログに登場する頻出語句や、語句の関連性はどうなっているのでしょうか?

KH Coderで何ができるかの参考になるかもしれませんので、ご興味のある方はお読みください。


・抽出語数

解析結果によれば、当ブログの1年間の文章は5,247文、抽出語数は137,209語とのことです。
このうち「異なり語数」が10,360語、つまり当ブログは約1万語のパターンの組み合わせでできているということになります。
1万語程度の語彙力があれば、当ブログを書くことができます 笑。


・抽出語ランキング

まずは当ブログの登場語句ベスト30です。


助詞や助動詞や「する」「ある」などの語句を除いた結果が抽出できます。
ベスト3は「年」「大阪」「思う」という結果になりました。

1位は「年」という結果になりました。460回も登場しています。これはおそらく「○○年に何が起きた」というような記述が多いためと思われます。
2位は「大阪」でこれが421回。地元大阪の記事が多いためと思われます。
3位が「思う」、これは「~と思います」「~と思われます」という言い回しが多いためと思われます。(と、さらに使ってしまう 笑)
16位には「考える」もランクしています。「~と思う」「~と考える」の頻出は悪文の典型で、学校の文章指導などでは「思う」は使うなとよく言われますが、当ブログは素直に書いている(笑)ので、思ったものは仕方がないと考えています。

4位の「自分」は当ブログの主語ですので頻出。
5位に「音楽」、6位に「本」が登場し、これは自分の趣味ですのでやはり頻出語句になっています。
自分は面白いことに関心があるので、9位に「面白い」がランクイン。
「社会」「時代」「歴史」と言った語句が多いのも当ブログの特徴かもしれません。
「神社」は17位で174回登場していますが、「お寺」は60位で84回の登場となっています。これは最近はお寺より神社を訪れることが多いからかもしれません。
「笑」が19位に登場しているのも特徴的です。過去1年間に、当ブログは実に166回も笑っています 笑。(と、さらに笑う。)

25位に「非常」、27位に「重要」が登場していますが、これは「非常に重要」という言い回しが多いためではないか。このような仮定に基づいて個別の語句の前後関係を分析することもできます。
結果は以下の通り。

「非常に重要」の登場回数は15回。それなりに多いですが個別の登場はそれを上回っています。
といった分析ができるのがこのKH Coderの面白いところです。


・抽出語ランキング(品詞別)

品詞別の分析に移ります。
頻出語句をババッと並べてみます。


一般名詞

名詞はベスト30位にも登場した語句が多いです。
80年代・90年代などの「年代」、古典主義やロマン主義の「主義」、19世紀・20世紀などの「世紀」が多いのが特徴的でしょうか。
20位の「感じ」も当ブログらしい感じがします。


サ変名詞

このように「~する」の形で使用される名詞は別で抽出できます。
意外と「戦争」のような物騒な単語も登場が多いです。


名詞B

ひらがなの名詞は別で抽出可能。
「あれこれ」は確かに自分が好んで使う表現です。


名詞C

KH Coderでは漢字1文字の名詞は「名詞C」として分類されます。
「年」「本」などが登場。
面白いのが東西南北で、当ブログでは「北」より「南」、「東」より「西」が多く登場していることが分かります。志向が南西寄りということなのか 笑。


固有名詞

「昭和」「明治」「大正」「平成」と、元号がやたらと登場しています。これも「19○○年(昭和○年)に何があって」のような使い方が多いためと思われます。
4位の「百舌鳥」は、堺市の地名の「百舌鳥」「中百舌鳥」「百舌鳥八幡」が繰り返し登場しているからです。


組織名

近畿圏の鉄道会社が多く登場しています。「京阪」がありませんが、こちらは一般名詞としてカウントされており、登場は8回でした。
9位の「コロナ」は組織名として認識されているようです。
(このあたりは学習機能で微調整できるようですが、とりあえず今回は一次解析結果をそのまま表示しています。)


人名

「笑」は人名としてカテゴライズされるようです 笑。
「ショパン」と「マーラー」が多いのは当ブログの特徴。
3位と8位は原武史さん。5位は日ペンの美子ちゃん。
7位と10位は古関裕而と思われますが、「裕而」はしっかり認識できないようです。


地名

大阪在住ということもあり、やはり「大阪」がトップ。
面白いのが4位の「近畿」の74回で、「関西」は22位で17回しか登場していません。自分は関西よりの近畿という言い方を好むようです。このあたりは分析して分かる面白いポイントです。


動詞

名詞以外に移ります。
動詞はベスト30にもランクした「思う」「考える」が多いです。
「~を訪れる」「~について取り上げる」といった言い回しが多いのが当ブログの特徴でしょうか。
(なお、「する」「ある」「なる」などのひらがなの動詞は除かれています。これらは別項目で確認可能。)


形容詞

「面白い」が突出しています。しきりに面白がっています 笑。
「興味深い」「心地よい」などの登場回数が多いのが特徴的かもしれません。
(形容詞も「ない」「よい」などのひらがなは除外されています。)


形容動詞

形容動詞は語幹のみで表示されます。
ベスト30にも登場した「非常」「重要」がツートップ。
「有名」も多いです。「~で有名な」という言い回しが多いためと思われます。

妙なのが9位に「巨大」がやたらと登場している点です。
気になったので調べてみました。

多くは言うほどデカくないです 笑。
当ブログの「巨大」はかなり怪しい表現であることが分かります。
(といったことが分析でわかる。)


副詞

「同時に」「比較的」などが当ブログの特徴語彙かも。


副詞B

ひらがなの副詞はこちらにカウントされます。
当ブログは副詞はひらがなで書く傾向が多いようです。
「特に」「更に」「殆ど」といった書き方をしないのが当ブログの特徴のようです
(「特に」は2回だけ登場していましたが、「更に」「殆ど」はゼロ回。)


未知語

最後は分類不能な語句です。
未学習状態では「CM」「ブログ」「JR」なども分類不能なのですね。
「ヴァトー」や「ゴヤ」が人名として認識されないのは美術ファンとしては悲しい。
10位の「而」は古関裕而の「而」と思われます 笑。



・対応分析

KH Coderでは語句と語句の関連性をグラフィカルに表示させることができるのが大きな特徴です。
例えば「対応分析」という表示方法で上位70語を分析してみると以下になります。

少し小さくてわかりにくいですが、原点(0付近)が最も特徴が薄く、離れるにしたがって特徴的な登場をするということのようです。
当ブログでは「駅」が特徴的な使われ方をしており、「神社」「お寺」の関連性が高いということが言えそうです。


・共起ネットワーク分析

この分析方法が一番視覚的に分かりやすく、面白いです。
上位70語の分析結果は以下の通り。

○の大きさが大きいほどよく登場する語句です。

上の黄色の群が「自分」「思う」「考える」「面白い」などの頻出語句で、それぞれ関連性が高い。
「考える」は「本」「日本」「社会」とのつながりが大きく、「面白い」は「本」「作品」とのつながりが大きいです。

やはり「重要」と「非常」はつながりが強いことが分かります。

右側のオレンジ色の群は「音楽」「演奏」「鑑賞」「聴く」「曲」と音楽関連のまとまり。
左下の紫色の群は美術関連のまとまりで、当ブログでは「~世紀」「~主義」「~年代」は美術と関連して使われることが多いということが分かります。

面白いのが下の赤色と青緑色のまとまり。
「昭和」という元号は「作曲」と関連しており「東京」とのつながりが強い。
「明治」という元号は「鉄道」と関連しており「近畿」とのつながりが強い
昭和は東京と、明治は近畿とつながりが強く、このあたりからここ最近の当ブログの趣向が読み取れ、たいへん面白いです。

また、左上の「都市」「文化」「政治」のまとまりは非常に面白く、文化や政治は空間によって決まるという最近の当ブログの考えがよく反映されています。



ということで、いくつかの分析結果をまとめてみました。
自分の文章の特徴などが分かり、なかなか面白い結果となりました。
ここで取り上げたのは分析の一部で、この他にも様々な分析が可能です。

KH Coderはいろんな使い方ができるソフトで、例えば青空文庫で夏目漱石や森鴎外の文章をコピペし、分析するというような使い方も可能。
解説書籍も販売されているようです。
ご興味のある方は使って遊んでみても面白いかもしれません。



---

おまけ

今日は10月31日です。
ハロウィンで、しかも今日は週末で、さらに満月の夜です。

ということで、この曲。


・もったいないとらんど/きゃりーぱみゅぱみゅ

 


週末の満月のお祭りの夜を歌った曲。
お化けが登場する曲で、雰囲気はハロウィン。
まさに今日、2020年10月31日のために存在するような曲です。

跳躍が楽しいサビ、短調から長調に移行するAメロ、ひねりの効いたBメロとCメロという組み合わせは楽しく、すぐに歌いたくなる楽曲、間奏部分や全体の響きも面白い。
ただ一度の夜を「もったいない」と感じ、お祭りの渦中から早くもお祭りの後の寂しさが心をよぎる歌詞は、意外とある種の日本的感性に近いものがあります。

きゃりーぱみゅぱみゅは中田ヤスタカさんが作詞・作曲・編曲をすべて1人で手掛けるユニット。自分は2010年代のポップスはほとんど聴いておらず、きゃりーぱみゅぱみゅはガールポップファンとしてはチェックすべきなのではと思いつつ全然聴けていませんでしたが、ここ最近聴く機会があり、アルバム「ぱみゅぱみゅレボリューション」「なんだこれくしょん」「ピカピカふぁんたじん」の3枚を買って聴いてみましたが、これがかなりいいです。
キャッチーでありつつ時々ひねったようなメロディも楽しく、電子音の音色も楽しく、響きもポリフォニックで面白い。
中田ヤスタカさんが1人でプログラミングしている電子音(たぶん)で、これは古くはシュトックハウゼンや富田勲がやろうとしたことの延長上にあり、電子音の技術もここまで来たかという感じ。
楽曲は一部複雑でありながら全体としてキャッチーで、歌の要素も強く、きゃりーぱみゅぱみゅは戦後日本のポップス・歌謡曲の正統な系譜の中にあるアーティストだと思います。