【統計のお勉強・統計とStata基礎５・回帰分析】Bmハワイ　肝っ玉の小さなアメブロ　笑

こんにちは、ともです。
統計のお勉強の備忘録です。

キーワード：統計入門、統計基礎、統計分析方法
Stata入門、Stata基礎、Stata使い方、回帰分析、検定　など

→　ともの統計とStata講座　目次へ♡

題材は2012年11月前半のピグライフクエスト
ピーナッツクエストのレアクエスト切手率です。

Stataの使い方の基礎５・Stataともマニュアル
回帰分析とは？　意味、内容、分析方法

■回帰分析の内容と結果の解釈

①回帰分析とは
・複数の変数の因果関係を定量的・統計的に明らかに出来る
・二つの変数の関係の場合は単回帰、複数の場合は重回帰
・データが揃えば、切手率（非説明変数）が、
　曜日、男女、クエスト進行、　課金度合い（説明変数）などと
　関係があるのかどうかも検証できる（データセットはかなり面倒）
・身近な例では、気候とビールの売れ行き、賃貸物件と条件、なども
・回帰分析の結果の信頼性を確保する上で、
　せめて最低20はデータが欲しいところ

②回帰方程式
・回帰方程式はYi = α + βXi + εi
・Y：非説明変数（従属変数） X：説明変数（独立変数）　
ε：誤差項　・・・Yの動きのうち、Xで説明できなかった部分
α：回帰線の傾き、β：切片（回帰係数）

③回帰分析の結果の評価
１）決定係数R^2の確認
・決定係数とは回帰式がどれだけデータを説明しているかを示す値
・決定係数の値の範囲は、　0＜＝R^2＜＝１
・決定係数が大きいほど説明力が高い
・説明変数の数が増えると決定係数の値は高くなる
・時系列データでは0.7以上が目安
・クロスセクションデータでは0.1以上が目安

◆参考　データの標準化（Standardize）
　
　重回帰分析で複数の変数の回帰分析をする場合、
　データを標準化すると良い場合があります。
　変数によってデータの大きさやばらつきがバラバラなのを
　揃えるイメージです。

　それぞれの変数の平均値と標準偏差をもとめ、
　各変数の各データから平均を引いて標準偏差で割って算出します。
　
Zi = (xi - x ave) / S
Zi : 標準化係数、xi : 元のデータ
x ave : 元データの平均値
S : 元データの標準偏差

２）帰無仮説と対立仮説：Null Hypothesis & Alternative hypothesis
・対立仮説：立証したい仮説
・帰無仮説：立証したい仮説を否定する仮説
・もし、帰無仮説が棄却（正しくないので捨てる）されれば、
　立証したい対立仮説が採択（正しいので採用）されることになる。
・棄却域(Rejection region)以外は採択域(Acceptance region)
・有意水準（level of significance, significance level）を用いる。
　：第一種の過誤(type I error)：帰無仮説が正しいのに棄却する誤り
　　があるかどうかを判定する割合。

①検定の方法１：P値による統計的推測（F検定）
・帰無仮説が正しいとした場合、統計量がF分布に従うことを利用して評価
・一般に統計量Fは2つの群の標準偏差の比で、両群とも正規分布に従う時
　F分布に従う。これを用い、Fの計算値が片側有意水準に入るかどうか検定。
・帰無仮説（係数がゼロの確率）が棄却域なら、
　帰無仮説は棄却され、対立仮説が立証されることとする。
・目安の値：
　有意水準5%：P値は0.05以下、有意水準10％：P値は0.1以下

②検定の方法２：t値による統計的推測（t検定）
・帰無仮説が正しいとした場合、統計量がt分布に従うことを利用して評価
・説明変数と非説明変数がまったく関係のないかどうかを推測
・母集団未知の際用いる、サンプリングした標本集団の分散 s2　を使う。
・t値　（＝係数／係数の標準誤差）の絶対値を見て評価
・全く関係のない確率（帰無仮説）が棄却域内なら、
　帰無仮説は棄却され、対立仮説が立証されるとする。
・目安の値：
　有意水準5%：t値はおよそ2以上、有意水準10%：t値はおよそ1.7以上

ちなみに正確に有意水準を見る場合にはｔ分布表を使う。
その際に自由度がでてくるが、
自由度＝（１変数の数ー１）×変数の個数

③検定の方法３：z値による検定（z検定）
・分散が既知のときはσ2(母集団の分散)を用いた z検定も使える
・母集団が正規分布に従うことが前提
・あるいは標本数が30以上ならよしとする
・扱いはt値と同様

統計についてもっと詳しくは（→　大森さん統計学の応用a）
標準正規分布表　（→　表の記事）
t分布表、F分布表（→　表の記事）

■Stataによる回帰分析の方法

①Stataによる回帰分析
・使用コマンド　reg　または regress
・使用式　reg 非説明変数　説明変数１　説明変数２　・・・・
・単回帰分析だと説明変数は一つ、重回帰分析だと説明変数を並べる
・分析例：2012年11月16日のピーナッツレアクエで
「クリアした日付」と「切手率」の因果関係を分析

分析：係数：マイナス、決定係数0.0219、t値-1.5、P値0.137
結論：14％有意（間違いの可能性が14％）で考えると、
　　切手率が下がるほど、クリア日は遅れる。

②予測値の計算
・回帰分析で方程式が導き出されたので予測値も計算できる
・エクセルで回帰式と散布図のグラフを書く時などに便利
・予測値の計算の使用コマンド：　predict　名付ける変数
・予測値の書き出し（10までを一刻み）：　list 名付けた変数　in 1/10

③時系列分析の際のオペレータ（変数の前につける）
前提：tssetを実行済みでないとエラーになる
・l.　：１時点過去の値 (xt-1)
・l2.　：２時点過去の値 (xt-2)
・f.　：１時点将来の値 (xt+1)
・f2.　：２時点将来の値 (xt+2)
・d.　：１次の差分（xt - xt-1）
・d2.　：２次の差分（xt - xt-1　－　(t-1とt-2の差分）
・s.　：１次の季節階差
・s2.　：１時点過去の値と季節階差

→　ともの統計とStata講座　目次へ♡

ブログネタ：NY、LA、ハワイ、暮らすとしたら？
出た　

判定：★★☆☆☆（もの言い

）
切手率とか、ピグゲーム統計ネタ、アメブロ評価者は大嫌いみたいね
触れられたくないってこと？　ずいぶん気が小さいこと
笑っちゃう　wwwwww
　
暮らすとしたらハワイがいいわね。のんびり出来るし、案外都会だし。
ビーチの散歩、ドライブいいし、キラウェア見物も楽しいし。
ダイビング、空中散歩、ボート、ヨット、最高よね。
マンタやウミガメ、イルカとも遊べるしね。

NY, LAは旅行での短期滞在がいいわね。
LAだとユニバーサルスタジオとか、ビバリーヒルズとか、ディズニーとか
いろいろ楽しい。

NYはほんとなんでも揃ってるし、ミュージカルなんかも楽しい。

でもNYもLAもちょっと危険なのよね。暮らすのは怖い。

だから暮らすならハワイね　(*^.^*)

【統計のお勉強・統計とStata基礎５・回帰分析】Bmハワイ 肝っ玉の小さなアメブロ 笑

【統計のお勉強・統計とStata基礎５・回帰分析】Bmハワイ　肝っ玉の小さなアメブロ　笑