Deep Learningは技術的特異点につながるか

画像認識の分野では、ここ数年Deep Learningという技法が注目を集めています。

まず、画像認識って何なのかですが、これは、画像に何が写っているのかを
コンピューターに答えさせるにはどうしたらいいかという話です。
典型的には、まず元知識として多くの画像を準備します。
これに人間様が
「これはリンゴ」とか「これはミカン」とか、
「女性」とか「男性」とか、
「にゃんこ」とか「わんわん」とか、
人間様が感じる正答を各画像にタグ付けをした上でコンピュータに覚えさせます。
そうした上で、コンピュータにとって未知の画像を入力して
「この画像は、今まで流し込んだ画像のどれに近くて、どういうタグがついているべき？」
「つまり、これは何？」
とたずねます。

画像を単なるビットの並びとして処理するコンピュータに、
にゃんこのような高度な概念を結び付けさせるのは、とても困難でした。
コンピュータにとっては、
にゃんこ画像が右向きにくるかも、左向きにくるかも、
大きく来るかも、右隅にくるかも、
威嚇してるかも、まったり猫鍋中かも、
わからないんですから。

画像認識は、おばかなコンピュータ君でどうしたら実現したらよいでしょうか？
もっとも単純なもののひとつは、画像と概念の関係の重み付けを抽出することです。
つまり、
丸いものがある→にゃんこ率８０％、みかん率９０％、わんわん率…
四角い→にゃんこ率１０％、みかん率５％…
黄色い→にゃんこ率５０％、みかん率９０％
目がある→にゃんこ率８０％、みかん率５％
のような関係をコンピュータに導き出させます。

これは「単純パーセプトロン」と呼ばれます。
丸い→にゃんこ度７０％の、７０をどう計算するかはまず大問題です。
質問に綺麗に答えられるかを人間様がチェックして、
やっぱ丸くてもにゃんこ率は７０％ぐらいの方が当たりやすいんじゃね？
とパラメータを調整することもあります。
つまり、最初の画像-タグ関係はもちろん、
このパラメータ調整も人間様による教育、コンピュータの学習の一部となります。

にゃんこ率のように直接に答えに結びつくものではなく、
中間的な概念、たとえば
ひげがある率
のようなものを導入しようとすれば、上記のパーセプトロンが多重化することになります。
ざっくり言って、これがニューラルネットワークです。

初期には、こうしたニューラルネットワークは三層ぐらいが流行しました。
というのは、認知科学の知見から得られた
入力処理→本質的な処理→出力処理
のような、人間の脳の情報処理モデルをよく模倣できたからです。
しかしそれも、もちろん人間の脳を本当にシミュレートするわけではなく、
正答率を上げるには限界がありました。

本題のDeep Learningの話に入ります。
Deep Learningとは、ニューラルネットワークの多層化を三層よりも
もっと深くすることで、画像の認識をする技法です。

現在の流行は10層とか20層らしいです。

私は最初Deep Learningという呼び名のDeepを見て
「深淵な学習…コンピュータが深淵な学習…」
と何やら脳をわしづかみされたような怪しい気分になりました。
でも、
「あーDeepって、学習がDeepって意味じゃなくて、
単にニューラルネットワークの層がDeepなのね。」
という話が見えると、そうそう話の底がdeepなものでなはいなと思えるようになりました。
まさに命名の妙ということでしょう。

さてそのDeep Learningが最近急に注目をあびてきています。
2012年あたりにひとつの技術的革命が起き、
認識率(Accuracy)が急上昇してきているのです。

2015年に入り、Google, Baidu, Microsoftなどが、95%の精度を達成しています。

実はこの95％（誤答率でいうと5%未満)というのは、
ひとつの壁というか、区切りというか、目標というか、
特異点
になっていました。
というのは、人間様で実際に誤答率を調べると5%ぐらいなのです。
つまり、いまや画像認識の精度に限れば
コンピュータが人間を超えた
のです。

もちろんこれは画像認識に限った話で、
人間の知能や認識が明らかにされたのか？
すなわち（映画トランスセンデンスのような）技術的特異点がやってきたのか？
というと、そういう話ではまだありません。

科学のために科学を科学的に笑うべし

論理はわが友されど笑いはさらなる友

Deep Learningは技術的特異点につながるか