前回の記事は、こちら─、
『 アメブロ画像認証の自動認識に挑む ~ 個人がニューラルネットを導入する際に最初にぶち当たる難題 』
学習データ ( 認証画像サンプル ) 収集のための、
何らかの自動化処理が必要となって来るわけだが…。
実はこれは、数十行程度のコードで、
比較的簡単に実現することが出来る。
実際─、
私が手掛けている、アメブロの "片思い" 読者登録を、
一掃するソフトウェアでも使用しているのだが、
昨今の、Windows アプリケーションの、
開発環境においては、
Web ブラウザーコントロールと呼ばれる、
強力なブラウザーコンポーネントが提供されてる。
これはいわば、IE の実体そのもので、
これを自身のアプリケーションに実装すれば、
それだけで、独自のブラウザが作れてしまうという、
大変、有難い代物なのである。
さらには─、
HTML の解析機能や、Web ページ上の入力ボックス、
ボタンなどを、コードから操作する機能なども完備されており、
なんとも、至れり尽くせりの、
デラックスなコンポーネントと言える。
この、Web ブラウザーコントロールと、
Web 関連のクラスライブラリとを組み合わせれば、
指定のサイトから特定のデータや画像ファイルだけを、
自動的に取得する簡易プログラムが、瞬く間に書けてしまう。
今回の記事では、その、
ソースコードの詳細までは割愛するが、
簡単に解説すると以下のような手順となる。
![]() アメブロ読者登録の画像認証ページを表示。
![]() 認証画像の <IMG> タグを抽出。
![]() 認証画像の URL を取得。
![]() ( WebClient.DownloadFile メソッドを使用 )
|
上記の処理を指定回数、繰り返します。
実際には─、
サーバーへの負担を考慮し、十分な時間間隔を設け、
数日かけて、徐々に動作させた。
そして─、
合計 9765 枚の、認証画像のサンプルを取得した。
( 次回へつづく... )
『 アメブロ画像認証の自動認識に挑む ~ 文字情報の特徴抽出を試みる 』