最後の活かし方
データサイエンス
・グラフにして可視化
・統計学の指標を使って分析
二つの事を勉強します。
1,エクセルを使って
グラフや平均値などを表示する。
2,統計学について理解する。
統計学って難しそう。
どうやって勉強すれば良いの?
2に方が難しい??
この統計学を
エクセルを使って
勉強します。
毎月の売り上げの折れ線グラフなどは
皆さん作成したことがあると思います。
もう一つ、散布図にチャレンジして下さい。
例えば、毎月の売り上げと経費を散布時にします。
データの部分を右クリック
近似直線の追加
式を表示
R^2を表示にチェックしてグラフ上に表示させます。
これだけでも傾向が可視化できます。
続いて統計学の基礎をエクセルで学びます。
・一つのデータ列を分析
例えば、売り上げのデータから
平均値 =AVERAGE(データの範囲)
標準偏差 =STDEV.P(データの範囲)
平均値は皆さん理解できると思いますが
標準偏差とは
平均値とのばらつきの指標です。
例えば
売上の平均が1000万円の製品がある
標準偏差が
100万円の製品(データ)と
300万円の背品(データ)では
毎月の受け上げのばらつきが違う
と云う事がわかります。
それでも数値だけでは、表現がわかりにくい
平均値と標準偏差が決まれば
正規分布図が作成できます。
平均値の±1*標準偏差の範囲が68%の確率
平均値の±2*標準偏差の範囲が95%の確率
と統計学では考えます。
正規分布図の高さは
=NORM.DIST(X座標のセル、平均のセル、標準偏差セル,False)
で求めます。
・二つのデータを比較する
相関係数は
=CORREL(数値範囲1, 数値範囲2)
で求めます。
売上と経費のデータがあれな
相関係数(R)を求めてみましょう。
Rはー1~0~+1の値です。
マイナスの場合は 負の相関(減少傾向)
プラス の場合は 正の相関(増加傾向)
と云う意味で
0に近いほど
弱い相関(相関が無い)の意味です。
多分に、強い相関の値になると思います。
散布図に追加した近似直線の
傾き Slop(数値範囲1, 数値範囲2)関数
切片 Intercept(数値範囲1, 数値範囲2)関数
求められます。
近似直線のR^2は
相関係数 Rの二乗です。
0~1の値になります。
1に近ければ、近似直線との誤差が少ない
と云う事です。
ここまでが統計学の基本です。
などに詳しくまとめてあります。
更に色々なデータを検証する指標があります。
こちらもケースバイケースで覚えてください。
ChatGPTに質問すると良い回答が得られますが
Microsoft365Copilotを導入している様であれば
AIが自動で分析して傾向を教えてくれます。