最後の活かし方

データサイエンス

・グラフにして可視化

・統計学の指標を使って分析

データサイエンス 基礎編(目次)

二つの事を勉強します。

1,エクセルを使って

  グラフや平均値などを表示する。

2,統計学について理解する。

  統計学って難しそう。

  どうやって勉強すれば良いの?

2に方が難しい??

この統計学を

エクセルを使って

勉強します。

毎月の売り上げの折れ線グラフなどは

皆さん作成したことがあると思います。

もう一つ、散布図にチャレンジして下さい。

例えば、毎月の売り上げと経費を散布時にします。

データの部分を右クリック

近似直線の追加

式を表示

R^2を表示にチェックしてグラフ上に表示させます。

これだけでも傾向が可視化できます。

 

続いて統計学の基礎をエクセルで学びます。

・一つのデータ列を分析

例えば、売り上げのデータから

平均値  =AVERAGE(データの範囲)

標準偏差 =STDEV.P(データの範囲)

平均値は皆さん理解できると思いますが

標準偏差とは

平均値とのばらつきの指標です。

例えば

売上の平均が1000万円の製品がある

標準偏差が

100万円の製品(データ)と

300万円の背品(データ)では

毎月の受け上げのばらつきが違う

と云う事がわかります。

それでも数値だけでは、表現がわかりにくい

平均値と標準偏差が決まれば

正規分布図が作成できます。

平均値の±1*標準偏差の範囲が68%の確率

平均値の±2*標準偏差の範囲が95%の確率

と統計学では考えます。

エクセルで正規分布図を作成

正規分布図の高さは

=NORM.DIST(X座標のセル、平均のセル、標準偏差セル,False)

で求めます。

 

・二つのデータを比較する

相関係数は
=CORREL(数値範囲1, 数値範囲2)

で求めます。

Excel(エクセル)CORREL関数の使い方

売上と経費のデータがあれな

相関係数(R)を求めてみましょう。

Rはー1~0~+1の値です。

マイナスの場合は 負の相関(減少傾向)

プラス の場合は 正の相関(増加傾向)

と云う意味で

0に近いほど

弱い相関(相関が無い)の意味です。

多分に、強い相関の値になると思います。

散布図に追加した近似直線の

傾き Slop(数値範囲1, 数値範囲2)関数

切片 Intercept(数値範囲1, 数値範囲2)関数

求められます。

近似直線のR^2は

相関係数 Rの二乗です。

0~1の値になります。

1に近ければ、近似直線との誤差が少ない

と云う事です。

ここまでが統計学の基本です。

散布図の作成と相関係数の計算(相関分析) 

などに詳しくまとめてあります。

 

更に色々なデータを検証する指標があります。

こちらもケースバイケースで覚えてください。

ChatGPTに質問すると良い回答が得られますが

Microsoft365Copilotを導入している様であれば

AIが自動で分析して傾向を教えてくれます。