画像処理の精度を上げ、人間の目と同じように機械も学習できることを目指している。今はどのくらいの枚数を学習させれば効率がいいかを考えている。

 

100枚の学習と200枚の学習で差が無ければ、少なくて済む100枚を選ぶだろう。枚数が多ければ多いほど学習精度が上がればたくさんの画像を集めるのが大切になってくるだろう。

 

20種類の花の画像をそれぞれ150枚の学習、225枚の学習、300枚の学習で分けてみた。この中で最も精度よくできていたのは225枚の学習である。学習後に学習とは別のデータを入力し、それがなんであるか%を返してくれるプログラムを使って結果をとった。中には最も%が高いものではないものもあり、それは正解というわけではないが、一応それも結果の中に入れた。するともっとも%が高くできていたのは225枚の学習である。しかし実際のユーザは1番%が大きいものしか見ておらず、それは入力した花が正解か不正解かの2値であるので、正解であった数を見てみた。するとそれは150枚の学習の時のものが一番の正答数であった。

 

水増しして学習をさせることがあるので学習データが多ければ多いほどいいかと思っていたが、そういうことでもない。学習データが多ければ多いほどデータの特徴をつかみづらくなってしまい、どのような花も同じように見えてしまうのかもしれない。