KH Coder -昨年と本年の文章語句を比較する- | れぽれろのブログ

れぽれろのブログ

美術、音楽、本、日常のことなどを思いつくままに・・・。

ちょうど1年前、当ブログで以下のような記事を書いています。

・KH Coderで文章を分析してみる
https://ameblo.jp/0-leporello/entry-12635002851.html

KH Coderは、文章の頻出語句の抽出や、登場語句の関連性などを分析することのできる、ライセンスフリーのテキスト分析ツールです。今から1年前に、2019年11月から2020年10月までの当ブログの頻出語句や語句の関連性を分析し、遊んでみたのが上記のリンク先の記事です。
これから1年、今回は2020年11月から2021年10月までの当ブログの頻出語句を抽出し、前回の分析結果と比較して遊んでみようと思います。この1年間で語句はどのように変わっているのか、人間の文章は1年間でどのように変化するのか?
当ブログに関心のない方でも、KH Coderの使い方の参考になるかもしれず、ご興味のある方は読んでみても面白いかもしません。



・抽出語ランクキング(全体)

まずは登場語句のベスト30です。


左側のオレンジ色の列が昨年(2019年11月~2020年10月)の頻出語句ベスト30、右側の黄色の列が過去1年(2020年11月~2021年10月)の頻出語句ベスト30です。両者を比較して、とくに登場回数の増加が顕著な語句には黄色でマーキングしています。

前回のベスト3は「年」「大阪」「思う」、今回のベスト3は「年」「神社」「思う」となっています。
「神社」は前回の17位から288ポイントアップして2位に躍り出ています。昨年も神社の記事は多かったと思いますが、本年はそれをさらに上回っています。すっかり神社ブログになってしまっています 笑。
この他ベスト3以外では、「時代」も前回の13位から168ポイントアップして4位、時代考証的な記事が増えているのでしょうか。
その他、ランク外から顕著に増えているのが8位の「碑」、15位の「公園」、16位の「人」です。神社にある石碑などを取り上げることがく、また公園もあちこち訪れましたので、増えています。
「人」がちょっと謎ですが、今年は人に関心が出て来たのかも 笑。コロナのため「人が多い」「人が少ない」のような表現が多かったからなのかもしれません。

その他は昨年と大きな違いはありません。

1位は相変わらず「年」で、これは「何年に何が起こった」のような言い回しが多いためと思います。「思う」「考える」「面白い」もやはり多く、当ブログで感想を述べる際のクセで頻出する語句のようです、
「大阪」「日本」「作品」も昨年同様の多さですが、「大阪」は114ポイント下がって5位に低下、一方で「日本」は49ポイント上がっています。やや関心がローカルから全国に移っているのでしょうか?笑
あと「音楽」が110ポイント下がって5位から18位に下がっています。今年は音楽の記事が全体として減っているようです。



・一般名詞

ここからは品詞別の抽出後ランキングです。
まずは一般名詞から。


一般名詞は上位30語と重なっているものも多く、上記の分析と傾向はあまり変わりません。
「神社」「時代」「作品」がベスト3、「神社」「時代」と、あと「公園」については上記の通り。
この他、増え方が目立つのが、7位の「政治」、8位の「天皇」です。ランク外から50ポイント以上アップ。今年は講談社の「天皇の歴史」シリーズを読んだりしているので、無意識に政治や天皇への言及が多くなっているのかも。それにしても天皇が148回も登場するなど、どんなブログやねんという気がします 笑。



・サ変名詞


続いては「~する」で動詞化される名詞たちです。ベスト3は「展示」「登場」「戦争」。「展示」は美術鑑賞の記事が多いため、当ブログでは頻出傾向にあります。
前回より増えているのは「展示」「戦争」「表記」「保守」「建設」です。「戦争」「保守」といった単語が増えているのはなかなか物騒です 笑。「建設」は「~の方が建設的」と言った言い回しを最近は好むからなのかも。
これ以外は「建築」が前回より64ポイント下がっているのを除けば、大きな傾向の変化はなさそうです。



・名詞B


こちらはひらがな名詞。登場回数が全体的に少ない名詞たちですが、それでも前回は登場しなかった「それなり」「ゆかり」がトップ3に出てきており、この1年間での言い回しの変化が見て取れます。
「あれこれ」は相変わらず多いです。
これ以外はさほど変化はありません。


・名詞C


こちらは漢字1字の名詞です。
「年」は全体ランキングでも常に1位の安定の名詞。「碑」「人」は上記にコメントした通りです。
顕著に増えているのは5位の「歌」で79ポイントアップ。「音楽」は減っているのに「歌」は増えている、これも取り上げる楽曲の対象の変化が見て取れ、面白いです。
その他「池」「村」がランク外から急上昇です。「池」は「公園」の増え方にリンクして増加しているものと思われます。



・固有名詞


続いては固有名詞です。こちらは変わらなさの方が印象的です。
トップ3は相変わらずの「昭和」「明治」「大正」です。順位も全く変わっていません。この3つの時代は昭和が一番長く、明治・大正の順に短くなっていくので、順位もその通りになっています。平成は大正よりは長いですが、「平成」はその下のランク、まだ歴史になっていない時代は当ブログの関心が薄いのかも?
あとは訪れた場所などの違いにより、前回と今回でほとんど語句が重なっていませんが、「中公新書」だけは継続して登場しています。



・組織名


こちらもトップに変動は少なく、順位に差はありますが「阪神」「阪急」「近鉄」が多いです。
当ブログでは組織名は、移動の際に利用する鉄道くらいしか触れないということなのかも。それでも「南海」がランク外になっているのは微妙な変化です。(京阪が登場しないのは、KH Coderでは組織名として認識されていない可能性があるのかも。)
あとは「講談社」「岩波」などの書店系組織が登場しているのが特徴でしょうか。面白いのは「下鴨神社」「橿原神宮」「法隆寺」で、これらの社寺は固有名詞ではなく組織として認識されるようです 笑。



・人名


続いては人名です。
1位の「笑」は文末などに付く「笑」と思われますが、これはKH Coderでは人名として認識されるようです。(自分は学習機能は使っていませんが、このあたりは学習機能によりおそらく改善可能です。)
あとは見事に前回と今回で一致している語句がありません。人名は変化が著しいです。
関心が昨年の「ショパン」「マーラー」「古関裕而」から、今年は「聖徳太子」「豊臣秀吉」「藤原氏」「明治天皇」に移っています。これも音楽から政治へという他の名詞語句との関連がうかがえ、興味深いですね。(ちなみに前回の「美子」は明治天皇の奥さんではなく、「日ペンの美子ちゃん」のことです 笑。)
「高津宮」「鳥居」といった単語も人名として認識されているのも何やら面白い。



・地名


人名の変化が著しかったのに対し、地名は変化は少ないです。
今回のベスト3は「大阪」「日本」「江戸」で、「大阪」がポイントダウンし、「日本」「江戸」がポイントアップしてますが、さほど大きな差異はないという結果です。
「京都」「神戸」がポイントアップし、「東京」ダウンしているも面白い? 「フランス」が「イギリス」に入れ替わっているも、どういう傾向か分かりませんが面白いですね。



・動詞


動詞に移ります。
トップ3は不動で「思う」「考える」「言う」です。「~と思います」「~と考えます」「~と言われます」という言い回しが相変わらず強いのが当ブログの特徴です。とくに「思う」の群を抜いた多さが特徴的。
強いて変化を取り上げるなら、まさに「取り上げる」が42ポイントアップで6位に入っているのが特徴かと思います。「今回取り上げるのは」などという言い回しは確かに増えている気がします。
その他は大きな変化はなさそうです。



・形容詞


形容詞も大きな変化はありません。登場語句もほとんど同じです。
1位の「面白い」はやはり群を抜いて多く、不動です。基本的に面白がるのが好きな人間です 笑。
これも特徴を強いてあげるなら、3位の「良い」が53ポイントアップ、8位の「深い」が20ポイントアップ、くらいでしょうか。



・形容動詞


形容動詞は若干の変化があります。
1位は「有名」で、前回より48ポイントアップ。「~で有名な」という言い回しは増えているような気がします。あとは「重要」は相変わらず重要な語句で、不動の2位。
面白いのは「非常」が80ポイントも下がって1位から4位に転落していることです。昨年の分析では「非常に重要」という言い回しが多いという特徴が見られましたが、おそらくこの言い回しが減っているのが原因と思われます。



・副詞


こちらは副詞、これも見事に変化がありません 笑。
9位に登場した「常に」以外は、順序に変動はあるもののすべて同じ語句です。



・副詞B


副詞Bはひらがなの副詞です。
こちらも全体的に変化は少ないですが、顕著なのは6位の「たいへん」がランク外から急上昇していることです。これはおそらく「たいへん重要」という言い回しが増えていることと思われます。当ブログではこの1年で「非常に重要」→「たいへん重要」と、言い回しが変化していることが見て取れます。このあたりは分析してみて分かる面白ポイントです。
他は強いて言えば「かなり」が36ポイントアップして2位に入っていることくらいが目立った変化で、あとは11位の「ちょうど」を除きすべて語句は重なっています。これも変化の少なさの方が特徴的です。
あと、これは昨年も言及しましたが、自分は副詞をひらがなで書くのが好みで、これは今回も変化していないようです。「特に」「大変」「更に」といった書き方をしないのは、変わらない特徴です。



・未知語


最後は未知語、KH Coderで分析できなかった語句たちです。未知語は学習機能により減らすことができると思いますが、自分はそのままにしています。
これは割と入れ替わりが激しいです。今回1位の「ドラクエ」はおそらく3回前の記事のおかげで急上昇しています。2位の「JR」は組織名ではなく未知語で分類、私鉄は認識できるのにJRは認識できないというのも面白いですね。



・共起ネットワーク

最後に語句の関連付けを図示する機能で、上位語句を分析してみます。

結果はこちら。


○が大きいものが登場回数がより多い語句です。
「思う」「考える」などの頻出語句は当ブログの主語である「自分」とつながりが強く、また「面白い」ともゆるいつながりがある。「面白い」は「作品」「展示」などと関連が強く、これは「美術」「美術館」との関連が強い。「年」は「時代」や「昭和」「明治」などとつながりが強く、「日本」「近代」「歴史」「天皇」はそれぞれつながりが強い、と言ったことが見て取れます。
面白いのが「政治」「音楽」「戦争」のつながりです。これは昨年の分析にはなかった結果です。確かにこの1年は政治と音楽に関わる記事を3本も書いており、ジャンルはクラシック、ロック、大衆歌謡と差がありますが、いずれの記事も戦争が登場しています。このあたりも分析から分かるこの1年の面白ポイントなのかもしれません。



ということで、昨年との比較を中心に自らのブログを検証してみました。
分析結果からなんとなく言えることは、

・全体的に大きな変化はないが、細かい部分で変化はある。
・「年」「明治」「大正」「昭和」など、時代を表す語句が相変わらず顕著に多い。
・「神社」「碑」「公園」への関心が強くなり、「天皇」や「戦争」も増えている。
・地名の変化は少ないが、人名の変化は著しい。
・動詞・形容詞・副詞の変化は少なく、相変わらず「思う」「考える」「言う」「面白い」あたりが頻出。
・「音楽」は全体として減っているが、「政治」との関わりが増えている。
・「非常に」が「たいへん」に変化している。

といったところでしょうか。
分析してみるとなかなか面白く、文章やテーマの改善などの参考にもなると思います。
前回に登場した前後分析や対応分析は今回は省略しましたが、このあたりも調べてみると面白いので、
機会があればまた何かを書くかもしれません。
次回以降は今回の分析をふまえて(?)、少しテーマなども考慮してみたいと考えています。