休みを利用して本格的にTwitterのつぶやき分析を勉強し始めました。
とりあえず「Rで学ぶ日本語テキストマイニング」という本を参考にしてみることに。
統計といえばRなのです。
まあ何しろ、初心者向けということで気楽にやり始めたんですが・・・・
・・・・マジで意味分からないのwwwww
一体なんの計算をしているのか、よくわらないので、
結果の意味合いがつかめないw
グラフで出せば視覚的に、確かにそういう傾向のあるグラフだねえ
ってのはわかる。
だがしかし、
コンピューターが何を根拠にそういうグラフ作ってるのか、さっぱりわからん!w
一応軽く、解説は入ってるんだけど、あくまで主体はRの操作なので
数学とか、統計的な理論は軽くしか書いてないんだよねw
例えば 「首相4人の演説から各人の傾向を割り出す」 という分析があります。
演説に出てくる言葉を分析するわけですが
言葉の”頻度”に”重み”をつける。
それはわかる、頻度に重みをかけてそれぞれ比べればいいわけだ。
で、この重みね
4人が4人とも言ってる言葉は軽い。
一人しか喋ってない言葉は重い。
それがその人独特の言葉なわけだ。
つまり、ある人しか使わない言葉なのに、そいつがそれを連発してたら
それがそいつの個性である
ということだ、まあわかる。
語尾が、~ました、を使っている人たちの中に
一人だけ、~なのだ、を連発してる人は、バカボンのパパ!
ということなのだ。
さて、じゃあこの重みをどういう数値にするかというと
これだ。
まず、私は、logが、さっぱりわからない
頭痛いwwww
df はある言葉がその4人の中で何人言ってるか
N/df はわかる。
~なのだ を言ってる人が一人だけなら4/1=4
もし4人共が口にしてたら 4/4=1
前者のが数値がでかい、重い。
わかる。
しかし、・・・・log
なぜ、logを使う必要があるのか、まったくわからんwwwww
N/df をそのまま使えばいいじゃないか・・・・、としか思えないw
思えば、学生時代から数学はよくわからなかったんだよねw
先生の話ちゃんと聞いておけばよかったな・・・・
と思うオジサンでしたwww