平均と度数分布を求める
ある店舗の3カ月間の日ごとの来客数のデータから平均の来客数を求めます。平均の計算にはAVERAGE関数を利用します。
平均の来客数は1日あたり108人という結果が出ていますが本当でしょうか?前回の基本操作では度数分布が正規分布に従っていない場合、外れ値の存在を疑う必要性を説明しました。この外れ値を見つけるという考え方はデータ分析において非常に重要で、平均の妥当性を検証する場合にも有効です。今回は用意された来客数データから度数分布を求めてみましょう。度数分布の計算にはFREQUENCY関数を利用します。
まず、最初にデータの最小値と最大値を求めます。
最小値が65、最大値が135という結果になりましたので、65を下限として5人ずつの幅で度数分布を求めてみます。FREQENCY関数の出力は配列となりますので、式の入力には配列数式を使用します。具体的には、式を入れる前にセル範囲を選択し、式を入れた後に〈ctrl〉+〈shift〉+〈enter〉で確定させます。
ヒストグラムを作成して外れ値を見つける
求められた度数分布の値を視覚的にとらえるために棒グラフにします。度数分布の値から作成された棒グラフのことを一般的にヒストグラムと呼びます。
できあがったヒストグラムを見ると、このデータには明らかに来客数が非常に少ない(平均して70~74人)日のグループが含まれていることがわかります。このグループが何を意味するかは後で分析するとして、標準的な日の来客数平均は、108人より多く110~114人と思われます。
そこで、AVERAGEIF関数を利用して、来客数が非常に少ない(84人以下)日のグループと、標準的な(85人以上)日のグループ別々に平均を求めてみましょう。
求められた結果から、標準的な日の平均来客数は113.7人であることがわかりました。一方、この店舗では、おおよそ週に1日営業時間が(8時間が5時間に)短縮される日があることがわかりました。このグループ(来客数が84人以下)のデータの数(日数)は12個(日)、平均来客数は70.8人となっています。これは、おおよそ、90日の7分の1、113.7人の8分の5に相当しますので、おそらく営業時間が短縮された日のデータがこのグループに分布していることが推定できます。
データに属性を追加して、さらに細かく分析する
ヒストグラムを使った分析で、このデータには2つの山(グループ)が存在することがわかりました。しかし、本当に山(グループ)は2つだけなのでしょうか。同一条件のデータのグループで度数分布を作成した場合、そのヒストグラムの形状は正規分布の形になることは既に説明しました。今回の結果についても、正規分布の形状を当てはめてみましょう。
すると、来客数85人以上(平均113.7人)のグループの山の形状は正規分布にしては、少し右側に偏り過ぎているように見えます。このような場合、近い平均の値を持つ2つの山(グループ)が重なっている可能性があります。つまり、下の図のように緑色の山とオレンジ色の山が重なっているのではないかという仮説が成り立ちます。
そこで、来客数に大きく影響する例外的な条件としてキャンペーンを行った日を特定し、先ほど調べた営業時間を短縮した日も含めて営業形態という属性をデータに追加して、さらに細かい平均を求めてみましょう。
この結果から、例外的な条件が何もない通常営業日の平均来客数は112.4人で、キャンペーンを実施することで来客数を10人程度増加させることができていることがわかりました。また、営業時間を短縮した日の来客数に対する仮設(営業時間にほぼ比例して来客数が減少する)も検証されました。
* * * * *
今回は、正規分布の持つ左右対称性に従わないデータを外れ値として検出して除外(分類)することを学びました。正規分布の持つもうひとつの重要な性質に、偏差(データの散らばり具合)があります。この偏差を扱う方法として、次回は、標準偏差と標準正規分布に関する統計関数の利用方法とそれを利用した発注点計画の例を説明します。
平井 明夫 [著]