齋藤です。オフィスレディーが好きです。
今から、第15章を説明します。
本章は、大きく度数分布、クロス集計、仮説検定の三つに関して述べています。
度数分布
この分布は1つの変数の異なる値に対する回答者の測定数を表している。
また、頻度分布の分析は無回答や識別できない回答の割合を決定するのに役に立つ。
度数分布に関連する統計
度数分布の分析は変数の異なる値をヒストグラムなどにして見つける際に便利な方法である。
この度数分布の情報は、位置の測定、変量の測定、形質の測定、の点を考慮することでさらに 分かりやすくすることができる。
位置の測定
位置の測定とは、中央の位置をとる傾向のことを意味している。これは、測定が分布の中央 を描く傾向があるためである。
(Ⅰ)平均
平均値は位置測定において最もよく用いられる。これは、データが間隔尺度か比率尺度で測 定された際に測定することができる。
平均のデータは、ほとんどの回答が平均値の付近でどのように分布しているかを表わさなけれ
ばならない。また、データに極端な値が無い場合、平均値は強固なものであり、データの値を 追加または削除しても極端には変化しないと考えられる。
(Ⅱ)モード
モードとは、最も頻繁に出現した値のことを意味する。
モードは変数が先天的に分類化されている、もしくは、分類にグループ化されている場合に有 効な測定である。
(Ⅲ)中央値
サンプルの中央値とは、測定値を上方もしくは下方の順番に並べた際の真ん中にあたる値で ある。
測定値の総数が偶数である場合、中央値は、中央にあたる二つの値の間の数になる。
平均値、最頻値、中央値のどれを用いるのが適切化は、変数が測定される尺度のタイプにより 分類することができる。
・変数が名目尺度で測定された場合、最頻値を測定することが適切である。
・変数が順序尺度で測定された場合、中央値を測定することが適切である。
・変数が間隔尺度、比率尺度で測定された場合、平均値で測定することが適切である。
平均値は、極端な値の影響を受けてしまうので、その際は平均値と中央値の両方を考慮する必
要がある。
変量の測定
変量の測定は、間隔尺度か比率尺度で行われる以下の四つ。
(1)範囲
(2)4分位範囲
(3)分散と標準偏差
(4)変量の係数
形の測定
分布は左右対称になる、もしくは、歪曲する。
(1)左右対称型の分布
左右対称の分布の場合、分布の中央から両側の値は同じになる。また、平均、中央値、モード の3つの値は一致する。正の値とそれに対応する負の値の平均からの偏差は等しい。
(2)歪度
歪度とは、中央からの偏差が片方だけ大きい傾向のある場合の分布を意味している。
(3)尖度
尖度とは、頻度分布における曲線の相対的トンガリ度、もしくは平らさの測定値
である
尖度が正の値をとる場合、分布は正規分布と比べてより尖る。逆に尖度が負になれば、正規分 布と比べて、曲線は平らになる。
仮説検定の紹介
基本分析は常に何らかの仮説の検証を含んでいる。以下に仮説検証のプロセスを示す。
仮説検証は以下の8つのプロセスで行われる。
①帰無仮説と対立仮説の形成である。
②適切な検証方法の選択
③有意水準の選択
④データの取集と検定統計量の計算
⑤可能性の決定
⑥可能性の比較
⑦マーケティングリサーチの結論
クロス集計(表)
変数と変数間の関係性を表した表。
特徴
クロス集計は二つ以上の変数を同時に考慮することができる。
クロス集計により、ある変数が他の変数とどのように関係しているかを測定することができる
利点
・統計に詳しくなくても、分かりやすい
・明確な結果の解釈は、リサーチの結果と管理者の行動に強い関係性を与えてくれる
・連続したクロス集計は複雑な現象に対して、深い洞察を与えてくれるため。
・セルの数の問題などを軽減してくれる
・クロス集計は実行するのが簡単で、知識のない調査者に魅力的であるため。
2変数
二つの変数を対象にするクロス集計表。
二つの変数があるので、独立変数は列、従属変数は行に記す。
3変数
3つ目の変数を出すことは、二つの変数間の最初に観測された関係性を明らかにする。
3つ目の変数を出すことは以下のような結果を招く
①オリジナルの2つの変数間に見られた関係を再構成する。
②当初、オリジナルの二つの変数間に関係性があると考えられたが、実際にはオリジナルの二 つの変数間の関係性がないことを示す。
③当初、オリジナルの変数化に関係性がないと考えられたが、実際には、二つの変数間に関係
性があることを意味している
④オリジナルの二つの変数間に何の変化もないことを意味する。
クロス集計に対する一般的コメント
三つ以上の変数をクロス集計することは可能であるが、解析が困難になる。
一般的に一つのセルに対して、統計結果に信頼性を持たせるために、最低五つの観測が行われ なければならない。
また、クロス集計は関係性を考察するのであり、因果関係を考察するものではないことに注意
しなければならない
クロス集計と関連する統計
二変数の関係性とその強さの二つを測定する。
①二変数間の関係性に対する統計的影響力は「カイ二乗統計」により測定することができる。
②二変数の関係性の強さはPhi相関係数、偶発係数、C’V、そして、ラムダ係数で測定すること
ができる。
カイ2乗
カイ二乗統計はクロス集計で観測された関係性の統計的影響力を測定するために用いられる。
これにより、二つの変数間に構造的関係性が存在しているか否かが判明する。
Phi 係数
Phi係数はテーブルが2列2行の場合の変数間の関係性の強さを測定するために用いられる。
Phi係数はカイ二乗の値のルートに比例する。
∅=√X2/n
偶発係数
偶発係数は0~1の間の値をとる。0は関係性が存在しない場合、しかし、1は事実上存在しない 。この最大値は、テーブルのサイズに依存するので、比較はテーブルサイズが共通のもの間で しかできない。
Cramer’s V
C‘VはPhi係数をより適用化した係数であり、行列が2×2以上のテーブルに対して用いる。
C'VはPhiのテーブルの行、もしくは列を小さい方に適合することで行われる。
vは0~1の値をとる。Ⅴの値が大きいほど、関係性が強い。しかし、どのように変数が関係して いるかはわからない。
Lambda 係数
ラムダ係数において、変数は名目尺度であると仮定する。
非対称ラムダ
非対称ラムダは、独立変数を考慮した上で、予測された従属変数の値の変化を測定する。
ラムダは0~1の値をとる。0は予測に何の変化もないことを意味し、1は誤差なしに予測できる ことを意味している。
1が生じるのは、独立変数のカテゴリーが従属変数の一つのカテゴリーとだけ関係している場合 である。
その他の統計
上記の統計技術は、変数が名目尺度の場合を想定しているが、以下の方法は変数が順序尺度の 変数間の関係性を測定することができる。
Tau b:行と列の数が等しいテーブルの分析を行う際に適切な方法。値は‐1から1の間をとる。
Tau c:行と列の数が異なる場合に用いるべき
gamma:行と列に対しての適用化はしない。
実践クロス集計
実際にクロス集計を行うなら、以下の5つの段階に従って行うべきである。
①カイ二乗で用いた変数間に関係性がないとする帰無仮説を検証する。帰無仮説が棄却できな い場合、変数間に関係性がないことになる。
②帰無仮説が棄却された場合、適切な統計技術を用いて、変数間の関係性の強さを測定する
帰無仮説が棄却された場合、独立変数から従属変数への関係性のパターンをパーセンテージ を計算することで導く
③仮に変数が順序尺度である場合、tau b, tau c, gammaを用いる。帰無仮説が棄却された場合 、マグニチュードを用いて関係性の強さを決定し、変数の関係の方向性を検証統計サインを 用いて導く。
④仮説検証、関係性の強さ、関係性の規則性の結果を管理できる形に解釈する。
差異に関連する仮説検証
⑤差異に関係する仮説の検証に焦点をあてる。
この際に、検証方法はパラメトリック検証と非パラメトリック検証の二つに分けることができ る。
パラメトリック・テスト
パラメトリック・テストは母集団の平均値に対しての考察を与えてくれる。この際にもっとも よく用いられるのがt検定である。
t検定
t分布を用いる一変量の仮説の検証である。サンプルサイズが小さく標準偏差が不明な際に用 いる。
t統計
変数が対称でベル型の分布をしている。また、平均値が想定されており、母集団の分散がサ
ンプルから推定することができると想定する統計。
t分布
平均値が判明しており、母集団の分散がサンプルから推定できる際、小さいサンプル検証の
有効な、対称的な形をしている分布。
以下にtテストを行う順序を示す。
①帰無仮説と対立仮説を設定する
②t統計に対して適切な公式を選択する
③帰無仮説の検証のための有意水準aを設定する。0.05
④1つか二つのサンプルを選択し、サンプルごとの平均と標準偏差を計算する
⑤帰無仮説が正しいと仮定した上で、t統計を計算
⑥自由度を計算し、統計値でより極端な値をとる確率がどれくらいかを推定する。
⑦ステップ6で計算された確率がステップ3で設定し有意水準より小さい場合、帰無仮説を棄却 する。帰無仮説が棄却されなかったといっても、帰無仮説が真であるわけではなく、真が帰 無仮説に近いということである。
⑧マーケティングリサーチの観点から、tテストの結果を表す。
パラメトリックのサンプル別の検定方法
1サンプル
1サンプルに対するt検定、z検定で検証することができる帰無仮説にとらえなおすことができ
る。
2独立サンプル
異なる母集団からランダムに抽出されたサンプルを独立したサンプルと呼ぶ。
何を検定したいかで検定方法を区別する。
平均⇒t検定
分散⇒f検定
f検定とは二つの異なる母集団の分散が等しいかどうかわからない際に用いる検定。
f統計とは、二つのサンプルの分散の比率
f分布は、二つのサンプルの自由度に依存する度数分布。
比率⇒z検定
ペアのサンプル
ペアのサンプルとは、二つの観測(サンプル)に共通の回答者が存在することを意味している。
このようなサンプルに対しては、ペアのサンプルのt検定を行う。ペアのサンプルのtを求める ために、二つのサンプルに共通の変数:ペア化サンプル間の変数の変化を示す変数;Dを形成す る。そして、その変数の平均と分散を計算する。n=ペアの数で、自由度はn‐1である。
検証の例:Dの平均値は各サンプルの変数の平均値の差
帰無仮説:ペアサンプルの変数のDの平均値は=0
対抗仮説:D≠0つまり、変化がある
非パラメトリック・サンプル別検定方法
非パラメトリックテストは独立変数が非メトリックな際に行われる。
1サンプル
調査者は特定の変数の観察が特定の分布から合理的に導かれるかどうかを検証したい。
k-sテスト
変数に対する、累積度数の関数(既知の分布)と特定の分布と比較し、適合度を測定する方法。
式:k=max【A-O】
A=理論上の分布の各カテゴリーにおける相対的累積頻度
O=サンプルの比較可能な度数の値
帰無仮説はkの値が大きくなればなるほど、棄却される。うん、俺は値の見方を間違った。
2独立サンプル
マンホイットニ-検定
二つの独立したサンプル、また、変数が順序尺度で測定されている前提の元、二つの異な る母集団の位置の差異を検定する。
2サンプル中央値テスト
2つのグループが同じ中央値をとる母集団から抽出されたかを判定するテスト。
K-Sテスト
2つの分布が等しいかどうかを判断するテスト。
ペアのサンプル
ウィルコクソン
ペアの観察間の違いを、その差異の規模を考慮して分析する。
そのために、データは間隔尺度で測られる必要がある。
このテストは、変数のペア間の差異を計算し、絶対差異としてランク化する。
符号検定
対応のある観測値に基づいて、符号の差異だけを考慮する。
今から、第15章を説明します。
本章は、大きく度数分布、クロス集計、仮説検定の三つに関して述べています。
度数分布
この分布は1つの変数の異なる値に対する回答者の測定数を表している。
また、頻度分布の分析は無回答や識別できない回答の割合を決定するのに役に立つ。
度数分布に関連する統計
度数分布の分析は変数の異なる値をヒストグラムなどにして見つける際に便利な方法である。
この度数分布の情報は、位置の測定、変量の測定、形質の測定、の点を考慮することでさらに 分かりやすくすることができる。
位置の測定
位置の測定とは、中央の位置をとる傾向のことを意味している。これは、測定が分布の中央 を描く傾向があるためである。
(Ⅰ)平均
平均値は位置測定において最もよく用いられる。これは、データが間隔尺度か比率尺度で測 定された際に測定することができる。
平均のデータは、ほとんどの回答が平均値の付近でどのように分布しているかを表わさなけれ
ばならない。また、データに極端な値が無い場合、平均値は強固なものであり、データの値を 追加または削除しても極端には変化しないと考えられる。
(Ⅱ)モード
モードとは、最も頻繁に出現した値のことを意味する。
モードは変数が先天的に分類化されている、もしくは、分類にグループ化されている場合に有 効な測定である。
(Ⅲ)中央値
サンプルの中央値とは、測定値を上方もしくは下方の順番に並べた際の真ん中にあたる値で ある。
測定値の総数が偶数である場合、中央値は、中央にあたる二つの値の間の数になる。
平均値、最頻値、中央値のどれを用いるのが適切化は、変数が測定される尺度のタイプにより 分類することができる。
・変数が名目尺度で測定された場合、最頻値を測定することが適切である。
・変数が順序尺度で測定された場合、中央値を測定することが適切である。
・変数が間隔尺度、比率尺度で測定された場合、平均値で測定することが適切である。
平均値は、極端な値の影響を受けてしまうので、その際は平均値と中央値の両方を考慮する必
要がある。
変量の測定
変量の測定は、間隔尺度か比率尺度で行われる以下の四つ。
(1)範囲
(2)4分位範囲
(3)分散と標準偏差
(4)変量の係数
形の測定
分布は左右対称になる、もしくは、歪曲する。
(1)左右対称型の分布
左右対称の分布の場合、分布の中央から両側の値は同じになる。また、平均、中央値、モード の3つの値は一致する。正の値とそれに対応する負の値の平均からの偏差は等しい。
(2)歪度
歪度とは、中央からの偏差が片方だけ大きい傾向のある場合の分布を意味している。
(3)尖度
尖度とは、頻度分布における曲線の相対的トンガリ度、もしくは平らさの測定値
である
尖度が正の値をとる場合、分布は正規分布と比べてより尖る。逆に尖度が負になれば、正規分 布と比べて、曲線は平らになる。
仮説検定の紹介
基本分析は常に何らかの仮説の検証を含んでいる。以下に仮説検証のプロセスを示す。
仮説検証は以下の8つのプロセスで行われる。
①帰無仮説と対立仮説の形成である。
②適切な検証方法の選択
③有意水準の選択
④データの取集と検定統計量の計算
⑤可能性の決定
⑥可能性の比較
⑦マーケティングリサーチの結論
クロス集計(表)
変数と変数間の関係性を表した表。
特徴
クロス集計は二つ以上の変数を同時に考慮することができる。
クロス集計により、ある変数が他の変数とどのように関係しているかを測定することができる
利点
・統計に詳しくなくても、分かりやすい
・明確な結果の解釈は、リサーチの結果と管理者の行動に強い関係性を与えてくれる
・連続したクロス集計は複雑な現象に対して、深い洞察を与えてくれるため。
・セルの数の問題などを軽減してくれる
・クロス集計は実行するのが簡単で、知識のない調査者に魅力的であるため。
2変数
二つの変数を対象にするクロス集計表。
二つの変数があるので、独立変数は列、従属変数は行に記す。
3変数
3つ目の変数を出すことは、二つの変数間の最初に観測された関係性を明らかにする。
3つ目の変数を出すことは以下のような結果を招く
①オリジナルの2つの変数間に見られた関係を再構成する。
②当初、オリジナルの二つの変数間に関係性があると考えられたが、実際にはオリジナルの二 つの変数間の関係性がないことを示す。
③当初、オリジナルの変数化に関係性がないと考えられたが、実際には、二つの変数間に関係
性があることを意味している
④オリジナルの二つの変数間に何の変化もないことを意味する。
クロス集計に対する一般的コメント
三つ以上の変数をクロス集計することは可能であるが、解析が困難になる。
一般的に一つのセルに対して、統計結果に信頼性を持たせるために、最低五つの観測が行われ なければならない。
また、クロス集計は関係性を考察するのであり、因果関係を考察するものではないことに注意
しなければならない
クロス集計と関連する統計
二変数の関係性とその強さの二つを測定する。
①二変数間の関係性に対する統計的影響力は「カイ二乗統計」により測定することができる。
②二変数の関係性の強さはPhi相関係数、偶発係数、C’V、そして、ラムダ係数で測定すること
ができる。
カイ2乗
カイ二乗統計はクロス集計で観測された関係性の統計的影響力を測定するために用いられる。
これにより、二つの変数間に構造的関係性が存在しているか否かが判明する。
Phi 係数
Phi係数はテーブルが2列2行の場合の変数間の関係性の強さを測定するために用いられる。
Phi係数はカイ二乗の値のルートに比例する。
∅=√X2/n
偶発係数
偶発係数は0~1の間の値をとる。0は関係性が存在しない場合、しかし、1は事実上存在しない 。この最大値は、テーブルのサイズに依存するので、比較はテーブルサイズが共通のもの間で しかできない。
Cramer’s V
C‘VはPhi係数をより適用化した係数であり、行列が2×2以上のテーブルに対して用いる。
C'VはPhiのテーブルの行、もしくは列を小さい方に適合することで行われる。
vは0~1の値をとる。Ⅴの値が大きいほど、関係性が強い。しかし、どのように変数が関係して いるかはわからない。
Lambda 係数
ラムダ係数において、変数は名目尺度であると仮定する。
非対称ラムダ
非対称ラムダは、独立変数を考慮した上で、予測された従属変数の値の変化を測定する。
ラムダは0~1の値をとる。0は予測に何の変化もないことを意味し、1は誤差なしに予測できる ことを意味している。
1が生じるのは、独立変数のカテゴリーが従属変数の一つのカテゴリーとだけ関係している場合 である。
その他の統計
上記の統計技術は、変数が名目尺度の場合を想定しているが、以下の方法は変数が順序尺度の 変数間の関係性を測定することができる。
Tau b:行と列の数が等しいテーブルの分析を行う際に適切な方法。値は‐1から1の間をとる。
Tau c:行と列の数が異なる場合に用いるべき
gamma:行と列に対しての適用化はしない。
実践クロス集計
実際にクロス集計を行うなら、以下の5つの段階に従って行うべきである。
①カイ二乗で用いた変数間に関係性がないとする帰無仮説を検証する。帰無仮説が棄却できな い場合、変数間に関係性がないことになる。
②帰無仮説が棄却された場合、適切な統計技術を用いて、変数間の関係性の強さを測定する
帰無仮説が棄却された場合、独立変数から従属変数への関係性のパターンをパーセンテージ を計算することで導く
③仮に変数が順序尺度である場合、tau b, tau c, gammaを用いる。帰無仮説が棄却された場合 、マグニチュードを用いて関係性の強さを決定し、変数の関係の方向性を検証統計サインを 用いて導く。
④仮説検証、関係性の強さ、関係性の規則性の結果を管理できる形に解釈する。
差異に関連する仮説検証
⑤差異に関係する仮説の検証に焦点をあてる。
この際に、検証方法はパラメトリック検証と非パラメトリック検証の二つに分けることができ る。
パラメトリック・テスト
パラメトリック・テストは母集団の平均値に対しての考察を与えてくれる。この際にもっとも よく用いられるのがt検定である。
t検定
t分布を用いる一変量の仮説の検証である。サンプルサイズが小さく標準偏差が不明な際に用 いる。
t統計
変数が対称でベル型の分布をしている。また、平均値が想定されており、母集団の分散がサ
ンプルから推定することができると想定する統計。
t分布
平均値が判明しており、母集団の分散がサンプルから推定できる際、小さいサンプル検証の
有効な、対称的な形をしている分布。
以下にtテストを行う順序を示す。
①帰無仮説と対立仮説を設定する
②t統計に対して適切な公式を選択する
③帰無仮説の検証のための有意水準aを設定する。0.05
④1つか二つのサンプルを選択し、サンプルごとの平均と標準偏差を計算する
⑤帰無仮説が正しいと仮定した上で、t統計を計算
⑥自由度を計算し、統計値でより極端な値をとる確率がどれくらいかを推定する。
⑦ステップ6で計算された確率がステップ3で設定し有意水準より小さい場合、帰無仮説を棄却 する。帰無仮説が棄却されなかったといっても、帰無仮説が真であるわけではなく、真が帰 無仮説に近いということである。
⑧マーケティングリサーチの観点から、tテストの結果を表す。
パラメトリックのサンプル別の検定方法
1サンプル
1サンプルに対するt検定、z検定で検証することができる帰無仮説にとらえなおすことができ
る。
2独立サンプル
異なる母集団からランダムに抽出されたサンプルを独立したサンプルと呼ぶ。
何を検定したいかで検定方法を区別する。
平均⇒t検定
分散⇒f検定
f検定とは二つの異なる母集団の分散が等しいかどうかわからない際に用いる検定。
f統計とは、二つのサンプルの分散の比率
f分布は、二つのサンプルの自由度に依存する度数分布。
比率⇒z検定
ペアのサンプル
ペアのサンプルとは、二つの観測(サンプル)に共通の回答者が存在することを意味している。
このようなサンプルに対しては、ペアのサンプルのt検定を行う。ペアのサンプルのtを求める ために、二つのサンプルに共通の変数:ペア化サンプル間の変数の変化を示す変数;Dを形成す る。そして、その変数の平均と分散を計算する。n=ペアの数で、自由度はn‐1である。
検証の例:Dの平均値は各サンプルの変数の平均値の差
帰無仮説:ペアサンプルの変数のDの平均値は=0
対抗仮説:D≠0つまり、変化がある
非パラメトリック・サンプル別検定方法
非パラメトリックテストは独立変数が非メトリックな際に行われる。
1サンプル
調査者は特定の変数の観察が特定の分布から合理的に導かれるかどうかを検証したい。
k-sテスト
変数に対する、累積度数の関数(既知の分布)と特定の分布と比較し、適合度を測定する方法。
式:k=max【A-O】
A=理論上の分布の各カテゴリーにおける相対的累積頻度
O=サンプルの比較可能な度数の値
帰無仮説はkの値が大きくなればなるほど、棄却される。うん、俺は値の見方を間違った。
2独立サンプル
マンホイットニ-検定
二つの独立したサンプル、また、変数が順序尺度で測定されている前提の元、二つの異な る母集団の位置の差異を検定する。
2サンプル中央値テスト
2つのグループが同じ中央値をとる母集団から抽出されたかを判定するテスト。
K-Sテスト
2つの分布が等しいかどうかを判断するテスト。
ペアのサンプル
ウィルコクソン
ペアの観察間の違いを、その差異の規模を考慮して分析する。
そのために、データは間隔尺度で測られる必要がある。
このテストは、変数のペア間の差異を計算し、絶対差異としてランク化する。
符号検定
対応のある観測値に基づいて、符号の差異だけを考慮する。

