遺伝の研究を行うにあたり、バイオインフォマティクスの知識が必要になり勉強をはじめました。

統計的な内容を見てみると、基本的なことがわからないのことに愕然とします。

今日は見た感じ基本的な内容をリストにします。

もうちょっと勉強したら数学の基本的なところもできたらあげたいです。

 

正規分布

 データのばらつきや誤差をモデル化するために用いられる確率分布

確率変数

 確率的に値が決まる変数。Nが大きければ平均値は正規分布に従う。

標本

 正規分布に従う現象全体から得られたデータ。x1,x2,,,xn

標本分散

 標本のばらつき程度

標準偏差 分散の平方根

確率分布 値とその値となる確率の対応

期待値 ある確率分布に従う確率変数がとる値の見込み

同時確率

 2つの確率変数XとYについて。X=x,Y=yという事象が同時に起こる確率。

 式 Pn(X=x,Y=y)

条件つき確率

 X=xという事象が起こった条件の下でY=yという事象が起こる確率

 式 Pn(Y=y | X=x) 言い換えるとPn(x,y)ともかける

 xとyを逆にすると

 Pn(y,x)=Pr(y)Pr(x |y)も成り立つ。

 Pn(y|x) = Pr(x | y) Pr(y) /Pr(x)

    これをベイズの定理。

分散 確率変数の値が期待値から平均的にどれくらい離れているかを示す値

  Var(X) = E((x-E(x))2)

 

統計的検定による仮説の検証

 仮説検定 標本(観測したデータ)がある仮説に従うと仮定し、その確率を計算することによってその仮説が正しいかどうかを判断する方法

  主張したい仮説とは反対の仮説(帰無仮説)を設定し、帰無仮説から標本が抽出される確率を計算。

  その確率が水準より小さければ帰無仮説を棄却する。

 

パラメトリック検定 母集団が正規分布に従うと仮定して行う検定

ノンパラメトリック検定 母集団の正規性を仮定せずに行う検定。

偽陽性 帰無仮説が正しいとき誤って棄却してしまう誤り

偽陰性 誤った帰無仮説を棄却できない誤り

 

最尤度 母集団が従う確率分布のモデルが分かっている時観測されたデータからその母数を推定する方法の1つ。

    データに対して尤度関数が最大になるように母数を推定する。

尤度関数 観測されたデータから得られる確率を母数の関数とみなす

最尤推定量 母集団が従う確率分布の母数をθとした時母集団からn個の標本がランダムに抽出される確率はPr(x | θ )と書くことができる。

 母数θの関数とみなしてL (θ) = Pr (x,,,xn | θ ) 尤度関数

 L(θ)を最大にする母数θをいう。これを推定するのが最尤法という。

 

確率分布 

 離散確率分布(descret probablity distribution)

 連続確率分布(continuous probability distribution)

 

 離散確率分布 ex)くじを引いた時に当たりが出る確率

 連続確率分布 確率密度関数、累積分布関数

ポアソン分布 単位時間あたり起こる確率が一定である事象が、ある期間内に起こる回数の分布

        P(x=k) = λ^k*e^(-λ)/k!

  λ(期待値)が大きければポアソン分布は平均値が共にλの正規分布に近似できる。

二項分布 2種類のうちどちらかしか起こらない事象が起こる回数の分布

幾何分布 ベルヌーイ試行において初めて成功を得るまでの試行回数Xの分布

 P(x=k) = P(1-p)^(k-1)

 成功するまでにk回試行しなければならない確率   

負の二項分布 確率pで起こる事象がr回起こるまでに必要な試行回数kの分布

 

連続確率分布 Xがa-bまでの値をとる確率  

正規分布 ガウス分布ともいう。

対数正規分布 確率変数の対数をとった値が正規分布するような分布

ポアソン仮定 ある事象が起こる回数が単位時間あたりλで一定の場合

指数分布 ポアソン仮定の事象が起こるまでの待ち時間の分布。無記憶性。

 

参考文献

 進化で読み解くバイオインフォマティクス入門 森北出版株式会社

 バイオインフォマティクス入門 第2版 慶應義塾大学出版会