多変量解析の基礎を学んでいきます.
備忘録や要点まとめとしてのブログなので詳細な解説はしません.ご了承ください.
今回のブログは,概要のみを述べていきます.
具体的な数理は次回以降です.
本全体の総括としては,多変量解析の入門書としては非常に分かりやすい本だと思います.
文系向けの本なので,微積を含まない高校数学,
多少発展してベクトルや線形代数の初歩さえ理解していればすんなり読めます.
理系の方でも社会工学的な応用を見る,という面で良い本ではないでしょうか.
1章:多変量データとは
2章:代表値の計算(平均や分散などの話です)
3章:多変量解析の俯瞰
4章:回帰分析を理解する
5章:因子分析
6章:回帰分析における回帰係数の算出(最小二乗法)
7章:数理で見る回帰分析の特徴(統計的諸量と最小二乗法における係数の関係)
8章~11章:多変量解析の数理
8章:行列の基礎,9章:固有値解析,10章:共分散モデル,11章:その他モデル
10章,11章は実際に用いられる多変量解析法の導入,という感じで,
大体こんな感じで進んでいきます.
4章,5章で回帰や因子分析の例が述べられていますが,6~10章の数理を読んでからこちらを読んだ方が入りやすいと思います.
それでは具体的に内容の解説にはいりましょう.
多変量データ解析は,因子分析と回帰分析に大別されます.
前者は,データの特徴を抽出するための手法です.この際,キーポイントとなるのが,「共変動」です.
他の変数と共に変動する変数は,因子分析において重要な変数です.例えば,x,yという二つのデータがあった時,
xが増加すると,yも増加(減少)する
xが減少すると,yも減少(増加)する
このようなデータは共変動していると言え,因子分析の肝となります
統計の分野では,これを「相関係数」や「共分散」などを用いて定式化しますね.
あるデータに影響する因子が分かれば,それらの因子を変数として,回帰分析を行います.
回帰とは,既存データからデータの従う式を推定し,未知のパラメータ領域におけるデータを推測することが目的です.
最初から因子が分かっているような場合(例えば流体の熱伝導率,粘性係数の温度依存性の実験データが存在する場合),
因子分析を行わずいきなり回帰を行っても問題はありません.
回帰の最も代表的な手法は最小二乗法ですね.これは,データと近似曲線の誤差の自乗和が最小となるように近似曲線の係数を決定する手法です.何故自乗かというと,誤差の総和をそのまま用いると,誤差のばらつきが等方的な場合,誤差の総和は0となり意味をもたなくなります.3乗以上であれば,解析的に係数を求めるのが難しくなるからです.
回帰は,因子が1変数の場合は非常に楽ですが,
2変数以上の場合,因子分析で用いた「共分散」や「相関行列の固有値」などが重要となってきます.
この具体的な手続きを次回以降述べていきたいと思います.行列計算の基礎や,1変数の最小二乗法による線形回帰等,簡単な部分は解説しません.ウェブでも理解できるページが大量にあるでしょうから,そちらを参照してください.
また,文系向けの本であるため,この本ではxやyが数値化できないデータ(の扱い方も記述されていますが,私は理系の人間なので基本数値で表されるデータにしか興味がありません.そういう点では理系のデータ解析は「楽」と言えるかもしれませんね.