機械学習 機械学習および データマイニング Ⅰ【冒頭】目次 …
データマイニングとの関係
機械学習とデータマイニングは交差する部分が大きく、技法も同じなので混同されることが多いが、次のように定義できる。
- 機械学習の目的は、訓練データから学んだ「既知」の特徴に基づく予測である。
- データマイニングの目的は、それまで「未知」だったデータの特徴を発見することである。
この2つは、さまざまな面でオーバーラップしている。データマイニングは、機械学習の技法を使うが、その目的は若干異なることが多い。一方、機械学習もデータマイニングの技法を「教師なし学習」として、あるいは学習者の正確性を向上させる前処理として用いる。2つの研究領域は、ECML PKDD という例外はあるが、基本的に学会も学術誌も別々である。それらの間の混同の最大の原因は、それらの基本的前提に由来する。機械学習では、既知の知識を再生成できるかどうかで性能を評価するが、データマイニングではそれまで「未知」だった知識を発見することが重視される。したがって、既知の知識によって評価するなら「教師なしの技法」よりも「教師ありの技法」の方が容易に優れた結果を示すことができる。しかし、典型的なデータマイニングでは、訓練データが用意できないので、「教師ありの技法」を採用することができない。
アルゴリズムの分類
機械学習のアルゴリズムは、要求される結果により以下のように分類される。
- 教師あり学習
- 入力とそれに対応すべき出力(人間の専門家が訓練例にラベル付けすることで提供されることが多いのでラベルとも呼ばれる)を写像する関数を生成する。例えば、分類問題では入力ベクトルと出力に対応する分類で示される例を与えられ、それらを写像する関数を近似的に求める。
- 教師なし学習
- 入力のみ(ラベルなしの例)からモデルを構築する。データマイニングも参照。
- 半教師あり学習(英語版)
- ラベルありの例とラベルなしの例をどちらも扱えるようにしたもので、それによって近似関数または分類器を生成する。
- 強化学習
- 周囲の環境を観測することでどう行動すべきかを学習する。行動によって必ず環境に影響を及ぼし、環境から報酬という形でフィードバックを得ることで学習アルゴリズムのガイドとする。例えばQ学習がある。
- トランスダクション(英語版)(トランスダクティブ推論)
- 観測された具体的な(訓練)例から具体的かつ固定の(テスト)例の新たな出力を予測しようとする。
- マルチタスク学習(英語版)
- 関連する複数の問題について同時に学習させ、主要な問題の予測精度を向上させる。
理論
機械学習アルゴリズムとその性能についての分析は、理論計算機科学の一分野であり、計算論的学習理論(英語版)と呼ばれている。訓練例は有限であるのに対して、未来は不確かであるため、学習理論は一般にアルゴリズムの性能を保証できない。その代わりに、性能の確率的範囲を与える。 Wassily Hoeffding(英語版)によるヘフディングの不等式(英語版)など統計的学習理論という表現もある。[7]
それに加えて、学習の時間複雑性と実現可能性についても研究している。計算論的学習理論では、多項式時間で終了する計算を実現可能とみなす。
機械学習と統計学は、多くの点で似ているが、使用する用語は異なる。
技法