本質をとらえたデータ分析のための分析モデル入門

【重点要約】

回帰分析は最も重宝する分析モデルの1つであり、これだけで幅広く深い分析が可能。

回帰分析を例にすると、y=ax+b+εでaとbを見つけることがモデル構築（推定、学習）でありxとyのデータセットがあれば最小二乗法の推定公式などから実装可能。但し、その結果はあくまで特定のaとbの数値が出たという事実であり、データが示してることや背景も結び付け総合的に判断して洞察や結論を出す必要がある。

【その他メモ】

・内積は２つのベクトルの類似度

・ベイズの定理は結果から原因を推定する時間逆行的なデータ分析で活躍

・重回帰分析で説明変数間に大きい相関がある場合は多重共線性に注意が必要

・ロジスティック回帰分析…yes/noの判断をするモデル

・ランダムフォレスト…決定着をたくさん作り多数決

・勾配ブースティング決定着→ランダムフォレスト＋〇×だけでなく自信度のパラメータを加える

・深層学習

　「良さ」を決める　→　使用する関数群を指定（深層学習のモデル設計）　→　関数群から最も良い関数を探す

　f(f(f…f(x)))と単純な関数を何層にも積み重ねて（深層の由来）パラメータ効率よく複雑な関数を作る

　各層は最も単純な１次関数とし、活性化関数により非線形性を与える

・自然言語処理では単語の登場回数だけでも文章分類や深い洞察を得ることが可能

・情報量の定義…log

・Transformer…深層学習界にブレイクスルー。RNNは用いず入力データから注目個所を選び効率的にデータを後続処理に渡すAttention機構のみ。

・BERT…事前学習済みモデル＋ファインチューニングで高精度モデルが手に入る

・強化学習

　環境と相互作用し得られる報酬の累積和である収益を最大化する方針を見つける。Whatはわかるがhowが不明なタイプのタスクに用いる。

　その段階でベストな方策をとる活用とそうとは限らない行動で情報を集める探索（先を見据えてより収益を最大化できる可能性を探る）はトレードオフの関係となる。

・モンテカルロ木探索と自己対局によりデータを生成し、そのデータを用いた教師あり学習で方策を強化しさらに自己対局で・・・と繰り返し圧倒的に強いAIを作成可能

・因子分析では因子数、回転を様々に試してスッキリ解釈できるものを採用

・理解志向の分析モデルは単にデータをモデルにあたはめるだけでなくその後の解釈が重要

・背景に何があるかを分析に組み込むことも重要

・階層ベイズモデリングでは背後の構造を仮定し「面白さ」のような定性的概念を定量化可能

・構造方程式モデリングは仮説の検討と解釈が重要