前回の記事は、こちら─、
『 アメブロ画像認証の自動認識に挑む ~ まずは、ニューラルネットを導入 』
何はともあれ─、
ニューラルネットを実行に移すには、
まずは学習用データを用意しなければならない。
ご存じニューラルネットは、
高度な機械学習の仕組みではあるが、
学習データがなければ、赤子同然の代物でもある。
ゆえに─、
ニューラルネットのクオリティを左右するのは、
ひとえに学習データの質に、かかっているとも言える。
元は同じ "赤子" であるにもかかわらず、
どのような "教育" を施すかによって、
ニューラルネット ( 脳の神経回路 ) の、
出来、不出来に差が生じるというのは、
当然と言えば、当然のことなのだが、
実際、プログラムを書いて体験してみると、
子を持つ親となった現在においては、
心中、穏やかではいられない…。
いずれにせよ─、
今回の取り組みにおいては、ネットから適当な、
数値画像のサンプルを集めれば良いというわけではなく、
アメブロで実際に使用されている、
認証画像のサンプルを入手しなければならない。
そして─、
実用的なニューラルネットの学習に必要なオーダーとなると、
やはり、10000 枚程度は欲しいところだ。
この収集作業を、手作業で行うとなると、
途方もない時間と労力が発生することは想像に難くない。
そこで─、
学習データ ( 認証画像サンプル ) 収集のための、
何らかの自動化処理が必要となって来るわけだが…。
( 次回へつづく... )
『 アメブロ画像認証の自動認識に挑む ~ 10000 枚の学習用画像をいかにして入手するか? 』