スモールデータ解析と機械学習 | ナナとトモのブログ

ナナとトモのブログ

最近は書評メインですがナナ(ダックスフント)のかわいさを世界に広めるブログです。

ここ数年、ニューラルネットワークを用いた機械学習が一般的になりました。学習

データが大量に集められるようになり、とりあえず適当なネットワークを用意して

「ビッグデータから自動的に学習させる」ことができるようになったためです。

 

しかし世の中には大量に集めることが難しいデータもあります。この本では

・装置故障などの異常データ、大規模災害などの極端なデータ、

・大規模な実験が難しいデータ (特に倫理的な制約などで)、

といった「スモールデータ」を扱うための、ある意味では「古いアルゴリズム」に

焦点を絞って解説しています。

 

例えば、主成分分析や線形回帰モデルはビッグデータ時代ではほとんど見かけなく

なった気がしますがスモールデータでは依然として有効なようです。そのほかには

不均衡データを解消するアルゴリズムも解説されています。ビッグデータなら多い

方のデータをサンプリングしてアンサンブル学習するとかが王道ですが、スモール

データでは SMOTE のような水増しアルゴリズムも重要です。ちなみに、多い方の

データをクラスタリングしクラスタごとに間引く手法は知らなかったので、機会が

あれば試してみたいと思います。

 

何でもかんでもニューラルネットワークに食わせるだけでなく、たまにはこういう

古いアルゴリズムも試してみるとまた違った結果が得られるかもしれません。