(仮想)初仕事 | python3Xのブログ

python3Xのブログ

ここでは40代、50代の方が日々の生活で役に立つ情報や私の趣味であるプログラム、Excelや科学に関する内容で投稿する予定です。

Ⅰ全体像をつかむ

機械学習の会社Hに出社。最初の仕事は、カリフォルニア州の国勢調査データを使って、カルフォルニアの住宅価格のモデルを作る事。

データ内容

・カリフォルニア州の各国勢調査細分区グループの人口

・収入の中央値

・住宅価格の中央値

・最小の地理的単位

(一般に、細分区グループには600~3,000人の人口がある)

この後、細分区の事を『区域』と呼ぶことにする

 
モデルに求められること
上記のデータを使って学習し、他の全ての指標から任意の区域の住宅価格の中央値を予測する事
Ⅱ問題の枠組みを明らかにする
ビジネスサイドの目的は何か?
会社はモデルをどのように使い、何を得るのが目的か?
 
上記の内容により、問題の組み立て方、アルゴリズムの選択、モデル評価(性能指数)の選択、かけるべき労力の度合いが決定される
 
目的
他の多くの信号(signal)とともに、モデルの出力(区域の住宅価格の中央値の予測値)を他の機械学習システムに与える。
この下流システムは、その区域が投資する価値があるかどうかを判断する。
注意:収益に直接影響するので、これを正しく判断することは重要
 
パイプライン
上流のコンポーネント区域のデータモデル:区域の住宅価格区域の住宅価格のデータ+ほかの信号
投資分析投資
 
専門家による推計値
区域の情報収集+複雑な規則⇒推計値を導き出す
<<問題>>
時間とコストがかかる
②推計結果がそれほど良くない(しばしば10%以上も外れてしまう)
 
モデルの選択
①教師あり学習:〇
②教師なし学習:△ (ただの収入や、価格の分類なら可能性あり)
③強化学習:×
 
複数の特徴量
区域の人口、収入の中央値を使う『多変量回帰』
データはメモリに十分収まる程度なのでプレーンなバッチ学習でOK
 
性能指標の選択
平均二乗誤差(RMSE:Root Mean Square Error)
RMSE(X,H) = (1/m*(Σh(x_i)  - y_i)^2)^0.5
②平均絶対誤差
MAE(X, h) = 1/mΣ|h(x_i) - y|
ハズレ値が指数的に減少する時はRMSEが望ましい
前提条件をチェック
・下流システムがカテゴリを利用するのか、実際の価格情報を利用するのかを確認
<<答え>>
価格情報で良し
教師あり学習:回帰に決定