で紹介した
近似直線や標準偏差を
活かす方法ですが
あくまでも統計学による
推測です。
確率の問題です。
おもしろい事例が
皆さんも不思議と思われたことはありませんか?
開票率が〇%とごくわずかで
この人の当選が確実??
まだ沢山の票が残っているのに?
この票が全部他の立候補者の可能性は?
はい
当選確率は
統計学を使って
信頼度95%の確率で
表示されます。
確率の理論です。
絶対と云う事ではありませんが
社会の至る所で使われています。
例えば、新薬の認可などがあります。
コロナのワクチンで
高価10%とかのニュースがありましたが
ちゃんと認可されています。
製品の検査の不良率なども同じです。
全ての製品を検査すれば良いのですが
それでは合理的ではありません。
数%のサンプル(標本)を抽出して
全体(母数)を推測する方法です。
多くは信頼度95%を採用しています。
二つのデータを比較するt検定
エクセルのtz.TEST関数でも
0.05%以下であれば
まず
まず起きえない事が起きている。
平均値などの比較が
有意(意味がある)と判断します。
データサイセンスの基礎です。
データサイエンティストと呼ばれる方は
その指標を使って
現状を説明してくれます。
説明を受ける側も
その指標の意味は理解しておきましょう。
そんな
データサイエンティストのお仕事を
次に紹介しま。