世論調査は調査方法が非常に重要でランダムに選ぶ事。日本は電話番号を使う。有効回答率が60%を超える事。乱数表を用いることもある。

インターネット投票や街角インタビューはランダムではないので結果の解釈には注意が必要。


2章

 相対的年齢効果(4-7月生まれの生徒は学年の中でも月齢が多いのでスポーツで成績を収めやすい)(対策は月齢を意識したグループ毎のテストなど、才能を抜擢するしくみをつくることが重要。)

 特性値

極端な値の影響を受けやすいため注意。平均値


影響受けづらい。

平均の中でも多数を占める数値を最頻値という。

中央値、データを大きさ順に並べた時中央に位置する値のこと。

正規分布からずれると何か異常が起きたということ。

 偏差「平均値と個々のデータの差)さほど差がなくなる場合もあるので統計学ではずれを表す指標の一つとして偏差を二乗してから平均を取る。わかりづらいため分散の平方根がよく利用されこの値を標準偏差という。(σシグマ)


共分散(偏差の積の平均)がプラスの場合は正の相関があり、逆は負の相関。

共分散がわかるのは正負という関係の方向性はわかるが相関の強さはわからないため相関係数が必要となる。


ワインの価格を決める四要素アッシエマンフェルター教授

1原料の葡萄の収穫前年の10-3月の雨量

2原料の葡萄が作られた年の8,9月の雨量

3原料の葡萄が作られた年の4-9月の平均気温

4ワインの年齢(経過年数)


3個以上の要素の方程式をみちびく「重回帰分析」。最小二乗法。

データを絞りすぎると相関が弱くなってしまう現象を選抜効果。データの取り方次第で間違った結論に。データの絞りすぎは正しい結論に導かない。

疑似相関」ノーベル賞とチョコレート消費には第3の要素(潜在変数)国の豊かさが関係している。


4時間目 限られたデータから全体の推測

 標本調査、母体、標本。

世論調査ではよくあるズレがどれくらいの範囲なのかを推定し,結果とともに発表。(真の回答率は〇〇%の範囲にある可能性が95%)


 視聴率、コインの同時投げ、予測に幅を持たせる(コイン4-6枚)

内閣支持率の標本誤差。


不合格品

サンプルサイズ。コストに合った許容できる範囲での設定。

新薬の効果

仮設検定、新薬の効果が効きやすい人がたまたま多く含まれていたという偶然の結果があり得る。この偶然の確率を統計的に見積もる必要がある。

 仮説に基づく確率分布の位置を仮定、試験結果がどこに位置するか調査、仮説を棄却できるかどうか推定。

 果汁の成分表示

二つの平均値に差があるからといって統計的に意味のあるかとは限らない。仮説1成分表示どうりではない、仮説2偶然サンプルの成分が低かった。t検定,ギネスビール技術者ウィリアムゴセット



なはゆ