アメブロ画像認証の自動認識に挑む ~ 10000 枚の学習用画像をいかにして入手するか? | サラリーマンの副業+在宅×必要悪ソフト

サラリーマンの副業+在宅×必要悪ソフト

人様から、お金を貰って提供できるだけの何かを形にするためには、最低でも10年は必要。確固とした専門スキルを持たぬ者が「大事なのはお客様」などと主張するのは持たざる者の言いわけ。それを、いかにして成すかを理解せぬ者が、何をするかだけを決めるのは間違いのもと。

前回の記事は、こちら─、
『 アメブロ画像認証の自動認識に挑む ~ 個人がニューラルネットを導入する際に最初にぶち当たる難題 』



学習データ ( 認証画像サンプル ) 収集のための、
何らかの自動化処理が必要となって来るわけだが…。



実はこれは、数十行程度のコードで、
比較的簡単に実現することが出来る。



実際─、



私が手掛けている、アメブロの "片思い" 読者登録を、
一掃するソフトウェア
でも使用しているのだが、



昨今の、Windows アプリケーションの、
開発環境においては、



Web ブラウザーコントロールと呼ばれる、
強力なブラウザーコンポーネントが提供されてる。



これはいわば、IE の実体そのもので、
これを自身のアプリケーションに実装すれば、



それだけで、独自のブラウザが作れてしまうという、
大変、有難い代物なのである。



さらには─、



HTML の解析機能や、Web ページ上の入力ボックス、
ボタンなどを、コードから操作する機能なども完備されており、



なんとも、至れり尽くせりの、
デラックスなコンポーネントと言える。



この、Web ブラウザーコントロールと、
Web 関連のクラスライブラリとを組み合わせれば、



指定のサイトから特定のデータや画像ファイルだけを、
自動的に取得する簡易プログラムが、瞬く間に書けてしまう。



今回の記事では、その、
ソースコードの詳細までは割愛するが、



簡単に解説すると以下のような手順となる。




① Web ブラウザーコントロールを使用し、
アメブロ読者登録の画像認証ページを表示。


② HTML 解析機能により、
認証画像の <IMG> タグを抽出。


③ 抽出した <IMG> タグの src 属性より、
認証画像の URL を取得。


④ 取得した URL の認証画像をダウンロード。
( WebClient.DownloadFile メソッドを使用 )




上記の処理を指定回数、繰り返します。



実際には─、



サーバーへの負担を考慮し、十分な時間間隔を設け、
数日かけて、徐々に動作させた。



そして─、



合計 9765 枚の、認証画像のサンプルを取得した。



( 次回へつづく... )
『 アメブロ画像認証の自動認識に挑む ~ 文字情報の特徴抽出を試みる 』