日記帳 -50ページ目

R言語でポアソン分布による推測

R言語の勉強で、本に書かれているサンプルコードにコメントをふる作業をしています。

なんか慣れないのは・・・

X <- 1：6

EX <- sum( X * kekka[，2] )

で、

「1×kekka[1,2]＋2×kekka[2,2]＋3×kekka[3,2]＋4×kekka[4,2]＋5×kekka[5,2]＋6×kekka[6,2]」

の計算ができちゃうとことか

prod ( 1 ： ( i-1 ) )

が階乗計算なとことかですかね。

すごく便利ではあるんですけども・・・

「１：６」を変数に代入っていうのが気持ち悪いのかも？

「１：６」ってどういう値？

・・・でもよく考えたら、Ｅｘｃｅｌとかで「＝ＳＵＭ（Ａ１：Ａ６）」って使いますね。

こんな感じで理解したら、「prod ( 1 ： ( i-1 ) )」はSUMがprodに変わっただけと考えれば

全然おかしな感じはしないですね。

そう考えると「X <- 1：6」って定義できるのは大変ありがたい機能です。

って書いているうちに、

「X <- 1：6」を「値」って捉えちゃってるのが間違っているのかも？列数1の配列なのかも？と

思い始めてきました。

sum (

kekka[,2]

0.2826

0.3281

0.2371

0.1043

0.0388

0.0091

）

このイメージの方が合っていそうな気がします。

添え字がないと「当然スカラーなもの」（もしくはアドレス）と考えてしまう習性がありますが

変数の定義をしなくてもよいというところで、慣れるまでやや混乱するかもしれません。

今日思ったのは

「書いてあるコードを解析するだけだと、間違った解釈に気づかないまま覚えてしまうかも」

ということです。

早く進みたいのに遠回りのように感じるけど、

一旦きちんと言語の勉強をして構造を理解する必要があるかもしれないなぁ～と思い始めてきました。

エントロピー

今日は「エントロピー」（平均情報量）について読みました。

以下の通り定義されます。p（xi）は確率です。

バラつきに関する情報量で、小さいほどデータのバラつきが大きいということです。

単位はbit。

なので底は2になります。

普通わかるでしょ！って感じだと思いますが、私の場合Excelでお試しをした時に値がテキストと合わず？

・・・なーんてことがありました。（デフォルトが10なのかも？）

インターネットでも「エントロピー」について解説しているサイトを探してみました。

以下のページがわかりやすかったです。

【Web で学ぶ情報処理概論】

http://www.infonet.co.jp/ueyama/ip/concept/information.html （情報量）

http://www.infonet.co.jp/ueyama/ip/concept/entropy.html （平均情報量／エントロピー）

【大阪府立大学　情報数理科学科/情報数理科学専攻　情報数理科学講座（高校生向け）】

http://www.mi.s.osakafu-u.ac.jp/lec/ssk/ （第１０回　情報って何だろう？）

「-log p(xi)」は、それを表すのに何ビットが必要か？を示しています。

１／２だったら１　（０か１）

１／４だったら２　（００か０１か１０か１１）

１／８だったら３　（０００か００１か０１０か０１１か１００か１０１か１１０か１１１）

「確率１であればビット不要（０ビット）」に始まり、確率が小さくなるに連れて情報量が多くなっていきます。

「情報の価値」という意味のようです。

【大阪府立大学】のページでは「ビックリする度合い（＝知った時に得られる情報が大）」と表されており

イメージしやすくなりました。

「エントロピーが小さいほどデータのバラつきが大きい」は、Excelで実際に比較してみました。

左が等確率で、右がバラつき有です。

エントロピーは、左が「４．７００４４」、右が「４．０２６９９」と、確かにその通りになっています。

【Web で学ぶ情報処理概論】のページでは、エントロピーについて

「情報の無秩序さ、あいまいさ、不確実さを表す尺度」と表されています。

「等確率だとどれに当たるかさっぱりわからない・・・」ということで、こちらは体感的に理解しやすかったです。

決意

大学が夏休みに入って体はとても楽なのですが～・・・

お腹や腰回りが巨大化してきたような気がします・・・(*v.v)｡

明日からダイエット開始します。

目指せマイナス３ｋｇです

終・最尤法

練習問題を解くことで「最尤推定量の求め方」はわかりましたが

「そもそも最尤法とは何か？」を理解できていない状態です。

教科書を読んでもさっぱりわからなかったので、インターネットで調べてみました。

そうしたらはてなダイアリーに超～やさしく説明してくれているサイトがありました。

リンクしていいものかわからなかったので、意だけ書いてみます。

・確率分布がわかっている観測データ（x1、x2、x3、・・・）が手元にある

・でもその分布を形作るためのパラメータ（ベルヌーイ分布だったら成功確率、正規分布だったら

　平均・分散とか）がわからない。

・「観測データ（x1、x2、x3、・・・）が同時発生する確率が最も高い」分布の形が一番尤もらしい

　→その分布のパラメータ（最尤推定量）を求めるのが最尤法

ということがわかると、昨日までやっていた手順

①「同時確率関数（尤度関数）を求める」

②「①を最大化する式を求める」

③「②に観測データを当てはめてパラメータの推定値を求める」

の意味がわかるようになりました。

もう数学は苦手で・・・

って、避けては通れない道だよね。。。

続・続・最尤法

月曜日からやっている最尤法の練習問題がまだできていません・°・(ノД｀)・°・

問題は、以下の分布の未知パラメータβ0、β1、σ^2を推定せよというものです。

確率密度関数は

となるので、同時確率密度関数は

　　　　　　　　

となり、対数尤度関数は

となります。

こちらをそれぞれの未知パラメータで偏微分して０と解けばいいのですが・・・

［σ^2の最尤推定値］

　　　　　　

［β0の最尤推定値］

β1の最尤推定値については導出できませんでした。

答えは

のようなのですが・・・

もうギブアップしてもいいかな・・・

続・最尤法

同時確率関数を求めて最大化（パラメータについて偏微分して０と解く）すればよいというのは

わかったものの

練習問題１

「平均μ、分散σ^2の正規母集団Xからのｎ個の標本X1、X2、・・・Xn」より、最尤法によって母集団の

平均を求めなさい」

を解くのに1時間くらいかかりました。

式の展開がなかなかできなくて・・・恥ずかしいですね

先生に聞くわけにもいかないので、どうにかこうにか解きました。

次に

練習問題２

「Yi～N（β0＋β1xi　, σ^2）のβ0、β1、σ^2を最尤法によって推定せよ」

を解きはじめて1時間30分経過・・・まだできていません

（できた！と思ったら、符号が逆でした・・・）

一旦お風呂に入ってリセットしたいと思います

最尤法

９章に進みました。でも、ちんぷんかんぷんです・・・

今は基礎統計の教科書を読んでいます。教科書を読んでも定義すら意味不明・・・

「確か割と最近授業で出てきていた」と思って基礎統計と計量経済学のノートをひっくり返していますが、

そんな形跡はなく

基礎統計は回帰分析で終わっているし、計量のノートにもありません。

夢でも見たのかしら？？

いや例をあげての説明がかすかに記憶に残っているし、聞いてないのにこんな夢を見られたら

逆にすごいでしょ！

おバカなツッコミを繰り返した結果・・・

オチは「見ていたのが去年前期の計量経済学のノートだった」でした。

（聞いたのは今年前期の計量経済学の授業）

ノートを見たら何となく理解できそうな気がしたので、

これでどうにか基礎統計の教科書１０章とゼミ教科書の説明を理解できるようがんばろうと思います。

＞＞＞

ベルヌーイ試行の例を読みました。

同時確率関数（→尤度関数）を求めたものに実際のデータを当てはめ、

それを最大にするpが最尤法の推定値らしいです。

次は「対数尤度関数」なのですが、数学の基礎がダメなので

まず対数計算のおさらいが必要です

7章終わった～

今日はパンダの赤ちゃんの写真に癒されていました

http://headlines.yahoo.co.jp/hl?a=20130817-00000012-jij_afp-int.view-000

ところでゼミ学習についてですが

Rプログラミングにつまづいていたものの、今日でパワポへのまとめも終わり、

ようやく一区切りつきました。

８章は基礎統計学の授業で習ったので、わからなくなったら参照することにして

９章に進もうと思います。

５月から始めて１００ページですが、本は２３３ページまであります。

また今までは序章的な感じでしたが、ここからはパッと見難しそうな雰囲気です。

私に理解できるのかな・・・？

なんてちょっと弱気になっちゃいます

夏の思ひ出？

今日はお祭りでした

「ペンギン村」という単語をとっても久々に聞きました～

（アラレちゃん音頭です・笑）

ＴＰＰ交渉　米、混合診療解禁求めず　株式会社の病院参入も

ということです。

http://headlines.yahoo.co.jp/hl?a=20130815-00000076-san-bus_all

「混合診療が認められるようになったら、

厚労省が新しい薬や治療法を今ほど承認しなくなるのではないか？」

（民間保険使って自由診療で受けてもらえばいいじゃない。国の医療費も減るし）

→「公的保険が適用される医療の範囲が狭くなる可能性がある」

→「お金のある人とない人で受けられる医療の格差が生まれる」

　（その他、自由診療を気軽に受ける人が増加する可能性があるという点からも）

→「国民皆保険制度崩壊」

と前に何かで読みました。

今日の記事によると、

「未承認薬を使いたいと希望している患者さんが混合診療の解禁を要望している」

→「政府も前向き」

→「アメリカも解禁を求めない」

ではないかということです。

わざわざ求めなくても目的（自由診療増加→民間保険加入者増加）が果たせるのであれば

あちらは摩擦も起きず万々歳かもしれませんね。

もし「政府も前向き＝民間保険使って自由診療で受けてもらえばいいじゃない。国の医療費も減るし」

だったら怖いなと思いますが～

どちらがメリットなんでしょうね。

今のままの場合、できるだけ承認しないと国民が安価に良い医療を受けられないので

公的保険適用範囲内での医療を受けられる可能性は高くなるだろうし。

でも、混合医療禁止だと困るような病気になる可能性もあるし。

実際に解禁されてみるまでわからないかも・・・