科学のために科学を科学的に笑うべし -11ページ目

科学のために科学を科学的に笑うべし

論理はわが友 されど笑いはさらなる友

画像認識の分野では、ここ数年Deep Learningという技法が注目を集めています。

まず、画像認識って何なのかですが、これは、画像に何が写っているのかを
コンピューターに答えさせるにはどうしたらいいかという話です。
典型的には、まず元知識として多くの画像を準備します。
これに人間様が
「これはリンゴ」とか「これはミカン」とか、
「女性」とか「男性」とか、
「にゃんこ」とか「わんわん」とか、
人間様が感じる正答を各画像にタグ付けをした上でコンピュータに覚えさせます。
そうした上で、コンピュータにとって未知の画像を入力して
「この画像は、今まで流し込んだ画像のどれに近くて、どういうタグがついているべき?」
「つまり、これは何?
とたずねます。

画像を単なるビットの並びとして処理するコンピュータに、
にゃんこのような高度な概念を結び付けさせるのは、とても困難でした。
コンピュータにとっては、
にゃんこ画像が右向きにくるかも、左向きにくるかも、
大きく来るかも、右隅にくるかも、
威嚇してるかも、まったり猫鍋中かも、
わからないんですから。

画像認識は、おばかなコンピュータ君でどうしたら実現したらよいでしょうか?
もっとも単純なもののひとつは、画像と概念の関係の重み付けを抽出することです。
つまり、
丸いものがある→にゃんこ率80%、みかん率90%、わんわん率…
四角い→にゃんこ率10%、みかん率5%…
黄色い→にゃんこ率50%、みかん率90%
目がある→にゃんこ率80%、みかん率5%
のような関係をコンピュータに導き出させます。
perceptron
これは「単純パーセプトロン」と呼ばれます。
丸い→にゃんこ度70%の、70をどう計算するかはまず大問題です。
質問に綺麗に答えられるかを人間様がチェックして、
やっぱ丸くてもにゃんこ率は70%ぐらいの方が当たりやすいんじゃね?
パラメータを調整することもあります。
つまり、最初の画像-タグ関係はもちろん、
このパラメータ調整も人間様による教育、コンピュータの学習の一部となります。

にゃんこ率のように直接に答えに結びつくものではなく、
中間的な概念、たとえば
ひげがある率
のようなものを導入しようとすれば、上記のパーセプトロンが多重化することになります。
ざっくり言って、これがニューラルネットワークです。

初期には、こうしたニューラルネットワークは三層ぐらいが流行しました。
というのは、認知科学の知見から得られた
入力処理→本質的な処理→出力処理
のような、人間の脳の情報処理モデルをよく模倣できたからです。
しかしそれも、もちろん人間の脳を本当にシミュレートするわけではなく、
正答率を上げるには限界がありました。

本題のDeep Learningの話に入ります。
Deep Learningとは、ニューラルネットワークの多層化を三層よりも
もっと深くすることで、画像の認識をする技法です。



現在の流行は10層とか20層らしいです。

私は最初Deep Learningという呼び名のDeepを見て
深淵な学習…コンピュータが深淵学習
と何やら脳をわしづかみされたような怪しい気分になりました。
でも、
「あーDeepって、学習がDeepって意味じゃなくて、
単にニューラルネットワークの層がDeepなのね。」
という話が見えると、そうそう話の底がdeepなものでなはいなと思えるようになりました。
まさに命名の妙ということでしょう。

さてそのDeep Learningが最近急に注目をあびてきています。
2012年あたりにひとつの技術的革命が起き、
認識率(Accuracy)が急上昇してきているのです。



2015年に入り、Google, Baidu, Microsoftなどが、95%の精度を達成しています。

実はこの95%(誤答率でいうと5%未満)というのは、
ひとつのというか、区切りというか、目標というか、
特異点
になっていました。
というのは、人間様で実際に誤答率を調べると5%ぐらいなのです。
つまり、いまや画像認識の精度に限れば
コンピュータが人間を超えた
のです。

もちろんこれは画像認識に限った話で、
人間の知能や認識が明らかにされたのか?
すなわち(映画トランスセンデンスのような)技術的特異点がやってきたのか?
というと、そういう話ではまだありません。