教師なし学習というのは、正解情報がないデータを分類する機械学習手法のことです。一般的にディープラーニングなどの学習では、異常なデータ正常なデータ であるとか、犬の画像、猫の画像というようにデータの意味といいますか、何のデータなのかが付与されていて、それを学んでゆくというやり方をします。
しかし、そういう都合のいいデータばかりがあるわけではなく、むしろほとんど正解で不正解データは1%かそれ以下しかないというようなことはよくあります。
またそもそも何も意味がないデータしかないということの方が多い。そこで、そういうデータを無理やりに何かの特徴で分類しグループ分けし、その分けられた結果から、それがどのような意味を持つのか、どう分類されるのかを検討するというのが教師なし学習です。
この本は、教師なし学習にフォーカスし、どういう手法があるか、どのように判定できるかをオムニバス的にみてゆくもので、教師あり学習でも使う手法も織り交ぜているので、復習としてはよい本です。
でも、元にしているデータがKaggleのクレジットカード不正に関するデータでほんのわずかだけ異常(不正)があるというものです。これでいろいろな手法で解説しているのはいいのですが、全くラベルがないデータではどう考え、判断していったらいいかは書かれていません。
