R言語の勉強で、本に書かれているサンプルコードにコメントをふる作業をしています。




なんか慣れないのは・・・





X <- 1:6

EX <- sum( X * kekka[,2] )


で、


「1×kekka[1,2]+2×kekka[2,2]+3×kekka[3,2]+4×kekka[4,2]+5×kekka[5,2]+6×kekka[6,2]」


の計算ができちゃうとことか






prod ( 1 : ( i-1 ) )


が階乗計算なとことかですかね。






すごく便利ではあるんですけども・・・






「1:6」を変数に代入っていうのが気持ち悪いのかも?


「1:6」ってどういう値?






・・・でもよく考えたら、Excelとかで「=SUM(A1:A6)」って使いますね。


こんな感じで理解したら、「prod ( 1 : ( i-1 ) )」はSUMがprodに変わっただけと考えれば

全然おかしな感じはしないですね。


そう考えると「X <- 1:6」って定義できるのは大変ありがたい機能です。






って書いているうちに、


「X <- 1:6」を「値」って捉えちゃってるのが間違っているのかも?列数1の配列なのかも?と


思い始めてきました。



sum (

X

1
2
3
4
5
6
*

kekka[,2]

0.2826
0.3281
0.2371
0.1043
0.0388
0.0091


このイメージの方が合っていそうな気がします。


添え字がないと「当然スカラーなもの」(もしくはアドレス)と考えてしまう習性がありますが


変数の定義をしなくてもよいというところで、慣れるまでやや混乱するかもしれません。





今日思ったのは


「書いてあるコードを解析するだけだと、間違った解釈に気づかないまま覚えてしまうかも」


ということです。



早く進みたいのに遠回りのように感じるけど、


一旦きちんと言語の勉強をして構造を理解する必要があるかもしれないなぁ~と思い始めてきました。

今日は「エントロピー」(平均情報量)について読みました。


以下の通り定義されます。p(xi)は確率です。


日記帳



バラつきに関する情報量で、小さいほどデータのバラつきが大きいということです。


単位はbit。

なので底は2になります。


普通わかるでしょ!って感じだと思いますが、私の場合Excelでお試しをした時に値がテキストと合わず?

・・・なーんてことがありました。(デフォルトが10なのかも?)








インターネットでも「エントロピー」について解説しているサイトを探してみました。


以下のページがわかりやすかったです。



【Web で学ぶ 情報処理概論】

http://www.infonet.co.jp/ueyama/ip/concept/information.html (情報量)

http://www.infonet.co.jp/ueyama/ip/concept/entropy.html (平均情報量/エントロピー)


【大阪府立大学 情報数理科学科/情報数理科学専攻 情報数理科学講座(高校生向け)】

http://www.mi.s.osakafu-u.ac.jp/lec/ssk/ (第10回 情報って何だろう?)









「-log p(xi)」は、それを表すのに何ビットが必要か?を示しています。


1/2だったら1 (0か1)

1/4だったら2 (00か01か10か11)

1/8だったら3 (000か001か010か011か100か101か110か111)


「確率1であればビット不要(0ビット)」に始まり、確率が小さくなるに連れて情報量が多くなっていきます。


「情報の価値」という意味のようです。


【大阪府立大学】のページでは「ビックリする度合い(=知った時に得られる情報が大)」と表されており

イメージしやすくなりました。


日記帳






「エントロピーが小さいほどデータのバラつきが大きい」は、Excelで実際に比較してみました。

左が等確率で、右がバラつき有です。


エントロピーは、左が「4.70044」、右が「4.02699」と、確かにその通りになっています。


日記帳



【Web で学ぶ 情報処理概論】のページでは、エントロピーについて

「情報の無秩序さ、 あいまいさ、 不確実さを表す尺度」と表されています。


「等確率だとどれに当たるかさっぱりわからない・・・」ということで、こちらは体感的に理解しやすかったです。

大学が夏休みに入って体はとても楽なのですが~・・・





お腹や腰回りが巨大化してきたような気がします・・・(*v.v)。






明日からダイエット開始します。


目指せマイナス3kgですグー

練習問題を解くことで「最尤推定量の求め方」はわかりましたが

「そもそも最尤法とは何か?」を理解できていない状態です。


教科書を読んでもさっぱりわからなかったので、インターネットで調べてみました。




そうしたらはてなダイアリーに超~やさしく説明してくれているサイトがありました。

リンクしていいものかわからなかったので、意だけ書いてみます。



・確率分布がわかっている観測データ(x1、x2、x3、・・・)が手元にある


・でもその分布を形作るためのパラメータ(ベルヌーイ分布だったら成功確率、正規分布だったら

 平均・分散とか)がわからない。


・「観測データ(x1、x2、x3、・・・)が同時発生する確率が最も高い」分布の形が一番尤もらしい

 →その分布のパラメータ(最尤推定量)を求めるのが最尤法




ということがわかると、昨日までやっていた手順


①「同時確率関数(尤度関数)を求める」

②「①を最大化する式を求める」

③「②に観測データを当てはめてパラメータの推定値を求める」


の意味がわかるようになりました。





もう数学は苦手で・・・汗




って、避けては通れない道だよね。。。

月曜日からやっている最尤法の練習問題がまだできていません・°・(ノД`)・°・


問題は、以下の分布の未知パラメータβ0、β1、σ^2を推定せよというものです。


日記帳






確率密度関数は

日記帳


となるので、同時確率密度関数は


日記帳
        日記帳

となり、対数尤度関数は

日記帳


となります。






こちらをそれぞれの未知パラメータで偏微分して0と解けばいいのですが・・・




[σ^2の最尤推定値]
日記帳
      日記帳

  日記帳




[β0の最尤推定値]

日記帳


日記帳

 日記帳







β1の最尤推定値については導出できませんでした。


答えは

日記帳


のようなのですが・・・







もうギブアップしてもいいかな・・・しょぼん

同時確率関数を求めて最大化(パラメータについて偏微分して0と解く)すればよいというのは

わかったものの


練習問題1

「平均μ、分散σ^2の正規母集団Xからのn個の標本X1、X2、・・・Xn」より、最尤法によって母集団の

平均を求めなさい」


を解くのに1時間くらいかかりました。


式の展開がなかなかできなくて・・・恥ずかしいですねあせる


先生に聞くわけにもいかないので、どうにかこうにか解きました。




次に


練習問題2

「Yi~N(β0+β1xi , σ^2)のβ0、β1、σ^2を最尤法によって推定せよ」


を解きはじめて1時間30分経過・・・まだできていませんしょぼん

(できた!と思ったら、符号が逆でした・・・)




一旦お風呂に入ってリセットしたいと思います温泉

9章に進みました。でも、ちんぷんかんぷんです・・・


今は基礎統計の教科書を読んでいます。教科書を読んでも定義すら意味不明・・・




「確か割と最近授業で出てきていた」と思って基礎統計と計量経済学のノートをひっくり返していますが、

そんな形跡はなく汗


基礎統計は回帰分析で終わっているし、計量のノートにもありません。


夢でも見たのかしら??


いや例をあげての説明がかすかに記憶に残っているし、聞いてないのにこんな夢を見られたら

逆にすごいでしょ!




おバカなツッコミを繰り返した結果・・・


オチは「見ていたのが去年前期の計量経済学のノートだった」でした。

(聞いたのは今年前期の計量経済学の授業)


ノートを見たら何となく理解できそうな気がしたので、

これでどうにか基礎統計の教科書10章とゼミ教科書の説明を理解できるようがんばろうと思います。



>>>



ベルヌーイ試行の例を読みました。


同時確率関数(→尤度関数)を求めたものに実際のデータを当てはめ、

それを最大にするpが最尤法の推定値らしいです。


次は「対数尤度関数」なのですが、数学の基礎がダメなので

まず対数計算のおさらいが必要ですしょぼん

今日はパンダの赤ちゃんパンダの写真に癒されていましたラブラブラブラブ!

http://headlines.yahoo.co.jp/hl?a=20130817-00000012-jij_afp-int.view-000



ところでゼミ学習についてですが

Rプログラミングにつまづいていたものの、今日でパワポへのまとめも終わり、

ようやく一区切りつきました。


8章は基礎統計学の授業で習ったので、わからなくなったら参照することにして

9章に進もうと思います。


5月から始めて100ページですが、本は233ページまであります。

また今までは序章的な感じでしたが、ここからはパッと見難しそうな雰囲気です。




私に理解できるのかな・・・?



なんてちょっと弱気になっちゃいます

今日はお祭りでした打ち上げ花火




「ペンギン村」という単語をとっても久々に聞きました~


(アラレちゃん音頭です・笑)

ということです。


http://headlines.yahoo.co.jp/hl?a=20130815-00000076-san-bus_all




「混合診療が認められるようになったら、

厚労省が新しい薬や治療法を今ほど承認しなくなるのではないか?」

(民間保険使って自由診療で受けてもらえばいいじゃない。国の医療費も減るし)


→「公的保険が適用される医療の範囲が狭くなる可能性がある」


→「お金のある人とない人で受けられる医療の格差が生まれる」

 (その他、自由診療を気軽に受ける人が増加する可能性があるという点からも)


→「国民皆保険制度崩壊」



と前に何かで読みました。




今日の記事によると、


「未承認薬を使いたいと希望している患者さんが混合診療の解禁を要望している」


→「政府も前向き」


→「アメリカも解禁を求めない」


ではないかということです。


わざわざ求めなくても目的(自由診療増加→民間保険加入者増加)が果たせるのであれば

あちらは摩擦も起きず万々歳かもしれませんね。


もし「政府も前向き=民間保険使って自由診療で受けてもらえばいいじゃない。国の医療費も減るし」

だったら怖いなと思いますが~




どちらがメリットなんでしょうね。


今のままの場合、できるだけ承認しないと国民が安価に良い医療を受けられないので

公的保険適用範囲内での医療を受けられる可能性は高くなるだろうし。


でも、混合医療禁止だと困るような病気になる可能性もあるし。




実際に解禁されてみるまでわからないかも・・・