Ⅰ全体像をつかむ
機械学習の会社Hに出社。最初の仕事は、カリフォルニア州の国勢調査データを使って、カルフォルニアの住宅価格のモデルを作る事。
データ内容
・カリフォルニア州の各国勢調査細分区グループの人口
・収入の中央値
・住宅価格の中央値
・最小の地理的単位
(一般に、細分区グループには600~3,000人の人口がある)
この後、細分区の事を『区域』と呼ぶことにする
モデルに求められること
上記のデータを使って学習し、他の全ての指標から任意の区域の住宅価格の中央値を予測する事
Ⅱ問題の枠組みを明らかにする
ビジネスサイドの目的は何か?
会社はモデルをどのように使い、何を得るのが目的か?
上記の内容により、問題の組み立て方、アルゴリズムの選択、モデル評価(性能指数)の選択、かけるべき労力の度合いが決定される
目的
他の多くの信号(signal)とともに、モデルの出力(区域の住宅価格の中央値の予測値)を他の機械学習システムに与える。
この下流システムは、その区域が投資する価値があるかどうかを判断する。
注意:収益に直接影響するので、これを正しく判断することは重要
パイプライン
上流のコンポーネント⇒区域のデータ⇒モデル:区域の住宅価格⇒区域の住宅価格のデータ+ほかの信号⇒
投資分析⇒投資
専門家による推計値
区域の情報収集+複雑な規則⇒推計値を導き出す
<<問題>>
①時間とコストがかかる
②推計結果がそれほど良くない(しばしば10%以上も外れてしまう)
モデルの選択
①教師あり学習:〇
②教師なし学習:△ (ただの収入や、価格の分類なら可能性あり)
③強化学習:×
複数の特徴量
区域の人口、収入の中央値を使う『多変量回帰』
データはメモリに十分収まる程度なのでプレーンなバッチ学習でOK
性能指標の選択
①平均二乗誤差(RMSE:Root Mean Square Error)
RMSE(X,H) = (1/m*(Σh(x_i) - y_i)^2)^0.5
②平均絶対誤差
MAE(X, h) = 1/mΣ|h(x_i) - y|
ハズレ値が指数的に減少する時はRMSEが望ましい
前提条件をチェック
・下流システムがカテゴリを利用するのか、実際の価格情報を利用するのかを確認
<<答え>>
価格情報で良し
教師あり学習:回帰に決定