こんにちは、ともです。
統計のお勉強の備忘録です。

キーワード:統計入門、統計基礎、統計分析方法
Stata入門、Stata基礎、Stata使い方、回帰分析、検定 など

→ ともの統計とStata講座 目次へ♡

題材は2012年11月前半のピグライフクエスト
ピーナッツクエストのレアクエスト切手率です。

Stataの使い方の基礎5・Stataともマニュアル
回帰分析とは? 意味、内容、分析方法


■回帰分析の内容と結果の解釈

①回帰分析とは

・複数の変数の因果関係を定量的・統計的に明らかに出来る
・二つの変数の関係の場合は単回帰、複数の場合は重回帰
・データが揃えば、切手率(非説明変数)が、
 曜日、男女、クエスト進行、 課金度合い(説明変数)などと
 関係があるのかどうかも検証できる(データセットはかなり面倒)
・身近な例では、気候とビールの売れ行き、賃貸物件と条件、なども
・回帰分析の結果の信頼性を確保する上で、
 せめて最低20はデータが欲しいところ

②回帰方程式
・回帰方程式はYi = α + βXi + εi
・Y:非説明変数(従属変数) X:説明変数(独立変数) 
ε:誤差項 ・・・Yの動きのうち、Xで説明できなかった部分
α:回帰線の傾き、β:切片(回帰係数)

③回帰分析の結果の評価
1)決定係数R^2の確認
・決定係数とは回帰式がどれだけデータを説明しているかを示す値
・決定係数の値の範囲は、 0<=R^2<=1
・決定係数が大きいほど説明力が高い
・説明変数の数が増えると決定係数の値は高くなる
・時系列データでは0.7以上が目安
・クロスセクションデータでは0.1以上が目安




◆参考 データの標準化(Standardize)
 
 重回帰分析で複数の変数の回帰分析をする場合、
 データを標準化すると良い場合があります。
 変数によってデータの大きさやばらつきがバラバラなのを
 揃えるイメージです。

 それぞれの変数の平均値と標準偏差をもとめ、
 各変数の各データから平均を引いて標準偏差で割って算出します。
 
Zi = (xi - x ave) / S
 Zi : 標準化係数、xi : 元のデータ
 x ave : 元データの平均値
 S : 元データの標準偏差


2)帰無仮説と対立仮説:Null Hypothesis & Alternative hypothesis
・対立仮説:立証したい仮説
・帰無仮説:立証したい仮説を否定する仮説
・もし、帰無仮説が棄却(正しくないので捨てる)されれば、
 立証したい対立仮説が採択(正しいので採用)されることになる。
・棄却域(Rejection region)以外は採択域(Acceptance region)
有意水準(level of significance, significance level)を用いる。
 :第一種の過誤(type I error):帰無仮説が正しいのに棄却する誤り
  があるかどうかを判定する割合。

①検定の方法1:P値による統計的推測(F検定)
・帰無仮説が正しいとした場合、統計量がF分布に従うことを利用して評価
・一般に統計量Fは2つの群の標準偏差の比で、両群とも正規分布に従う時
 F分布に従う。これを用い、Fの計算値が片側有意水準に入るかどうか検定。
・帰無仮説(係数がゼロの確率)が棄却域なら、
 帰無仮説は棄却され、対立仮説が立証されることとする。
・目安の値:
 有意水準5%:P値は0.05以下、有意水準10%:P値は0.1以下


②検定の方法2:t値による統計的推測(t検定)

・帰無仮説が正しいとした場合、統計量がt分布に従うことを利用して評価
・説明変数と非説明変数がまったく関係のないかどうかを推測
・母集団未知の際用いる、サンプリングした標本集団の分散 s2 を使う。
・t値 (=係数/係数の標準誤差)の絶対値を見て評価
・全く関係のない確率(帰無仮説)が棄却域内なら、
 帰無仮説は棄却され、対立仮説が立証されるとする。
・目安の値:
 有意水準5%:t値はおよそ2以上、有意水準10%:t値はおよそ1.7以上


ちなみに正確に有意水準を見る場合にはt分布表を使う。
その際に自由度がでてくるが、
自由度=(1変数の数ー1)×変数の個数

③検定の方法3:z値による検定(z検定)
・分散が既知のときはσ2(母集団の分散)を用いた z検定 も使える
・母集団が正規分布に従うことが前提
・あるいは標本数が30以上ならよしとする
扱いはt値と同様

統計についてもっと詳しくは(→ 大森さん統計学の応用a
標準正規分布表 (→ 表の記事
t分布表、F分布表(→ 表の記事

■Stataによる回帰分析の方法

①Stataによる回帰分析

・使用コマンド reg または regress
・使用式 reg 非説明変数 説明変数1 説明変数2 ・・・・
・単回帰分析だと説明変数は一つ、重回帰分析だと説明変数を並べる
・分析例:2012年11月16日のピーナッツレアクエで
「クリアした日付」と「切手率」の因果関係を分析

分析:係数:マイナス、決定係数0.0219、t値-1.5、P値0.137
結論:14%有意(間違いの可能性が14%)で考えると、
  切手率が下がるほど、クリア日は遅れる。


②予測値の計算
・回帰分析で方程式が導き出されたので予測値も計算できる
・エクセルで回帰式と散布図のグラフを書く時などに便利
・予測値の計算の使用コマンド: predict 名付ける変数
・予測値の書き出し(10までを一刻み): list 名付けた変数 in 1/10 



③時系列分析の際のオペレータ(変数の前につける)
前提:tssetを実行済みでないとエラーになる
・l. :1時点過去の値 (xt-1)
・l2. :2時点過去の値 (xt-2)
・f. :1時点将来の値 (xt+1)
・f2. :2時点将来の値 (xt+2)
・d. :1次の差分(xt - xt-1)
・d2. :2次の差分(xt - xt-1 - (t-1とt-2の差分)
・s. :1次の季節階差
・s2. :1時点過去の値と季節階差


→ ともの統計とStata講座 目次へ♡



NY、LA、ハワイ、暮らすとしたら? ブログネタ:NY、LA、ハワイ、暮らすとしたら? 
 出た メモ判定:★★☆☆☆(もの言い流れ星
切手率とか、ピグゲーム統計ネタ、アメブロ評価者は大嫌いみたいね
触れられたくないってこと? ずいぶん気が小さいこと
笑っちゃう wwwwww

 
暮らすとしたらハワイがいいわね。のんびり出来るし、案外都会だし。
ビーチの散歩、ドライブいいし、キラウェア見物も楽しいし。
ダイビング、空中散歩、ボート、ヨット、最高よね。
マンタやウミガメ、イルカとも遊べるしね。

NY, LAは旅行での短期滞在がいいわね。
LAだとユニバーサルスタジオとか、ビバリーヒルズとか、ディズニーとか
いろいろ楽しい。

NYはほんとなんでも揃ってるし、ミュージカルなんかも楽しい。

でもNYもLAもちょっと危険なのよね。暮らすのは怖い。

だから暮らすならハワイね (*^.^*)