メモに手書き記入された数字を認識、データ化の取り組み・・・その１「事前調査」編 | kabapythonのブログ

ホームピグアメブロ

芸能人ブログ人気ブログ

メモに手書き記入された数字を認識、データ化の取り組み・・・その１「事前調査」編

■■■　序論

作業や売上の日報、棚卸しなど実際業務の現場においては、

　・所定フォームを印刷した記入用紙を現場に配布

　・現場担当者が用紙に数値などをペンやマジックで手記入

　・記入用紙を回収、入力担当者が端末に打ち込み

といったシーンをよく目にしますが、

　・配布＆回収はロス作業

　・記入と打ち込みは重複工数

とみなされ、工数削減を目的として、

　方案A：紙記入をやめて現場担当が直接に端末に打ち込み

　方案B：手書き記入された数字の自動認識、データ化

などの解決方案例が容易に引き出されると思います。

が、、、（予算無尽蔵な現場は別として・・・）

方案Aは、端末の現場配備に費用がかさんだり、現に手記入で済ませているのに不慣れな画面操作をやらすんかい？といった現場抵抗感を解消（懐柔）するといった点で、実際のところはすぐに容易に着手できるとは言えません。流行りのスマホクラウド入力は手軽ですが、使う限りずっと費用がかかり続けることを忘れてはなりません。

また、

方案Bは、印刷数値であれば簡単かつ安価で実現可能なようですが、

手書きとなるとたとえ数字だけでも簡単にはいきません。

AI-OCRを利用するとすぐにでもできそうですが、たいていは

　日本語文字全体の認識ができる

ようになっており、それには専用サーバを設置や、クラウド認識にしたり・・・

　数値だけ取り出したい

というニーズには過剰な装備で、

　使う限りずっと、それもかなり高額な費用

がかかり続けます。

　重要な「数値」、しかし単なる「数字」

　だからこそ最小費用でなんとかならんか？

と調査、試用、考察し、確信をもって方法を確定したいと思い立ちました。

■■■　事前調査

□出典１　＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

CNN と RNN の違いとは? 【Q and A 記事】 | CVMLエキスパートガイド「 CNN とRNNの違いとは？」というQuestionについて，この記事では2者の違いを整理する．

cvml-expertguide.net

↑上記出典から勝手引用すると、

・CNN　畳み込みニューラルネットワーク
・RNN　再帰型ニューラルネットワーク

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

ディープニューラルネットワークとして，深く何層も畳み込み層や活性化層を経て特徴マップを変換しながら奥へ伝搬していく．その点ではCNNとRNNの両者は共通している．

しかし，RNNでは回帰（再帰）構造を利用し，「同一のパラメータの全結合層」を何度もシーケンシャルに使い回す，再帰型の更新をおこなう．省パラメータを再帰で使い回して，（シンプルに）系列データの変化をモデル化しているのがRNNである．

一方，CNNの主眼は，入力画像の物体認識である．どの物体クラスの2次元パターンが入力画像に映っているかを，小・中・大の空間フィルタを順に適用することで，絞りこんでいく．従って，RNNのように同じ線形を使い回したりはせず，解像度ごとに，そのサイズにあった異なる畳み込みフィルタを学習することになる．

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

ということで、数値認識にはCNNが合うらしい。

□出典２　＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

手書き数字認識 | AI Academy1. Kerasを使って手書き数字認識(MNIST)のプログラムを実装する 2. Google ColabでGPUを使う方法を学ぶ

↑GoogleCoraboにおいてKeras/Tensorflowを使う方法

◎　GPUが手元になくてもGPU動作させられる。

○　GoogleCoraboにはKeras/Tensorflowがセットされている。

　（アップデートで動かない場合もあるそうだ）

　　KerasはTensorflowを短いコードで扱える。
　　またCNNとRNNの両方を使える・・・だそうです。

　　−＞初学者がTensorflowを使うならkerasから入れ、とな。

○　MNISTを使うと手軽に学習データを得られる

X　手元のVSCodeで動作させるのではない

　　GoogleCorabo使ってないし、Googleに左右されたないし。

　　VSCodeで動作可能させる方法は別途調査。

・上記出典２のサンプルコードは流れが参考になる

□出典３　＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

数字認識を使って棚卸を自動化するアプリケーションを作る - 薬剤師のプログラミング学習日記機械学習ライブラリにおける画像分類のチュートリアルなどで目にすることが多い手書き数字認識ですが、実際の業務で行う棚卸で利用することができそうだと考え、あれこれ試行錯誤してやってみました。とりあえず実用で使えるレベルで形になったので、書いていきたいと思います。手書き数字認識とは作成するアプリケーションの概要自動化する部分精度を決めるポイント OpenC…

www.yakupro.info

↑こちらはより目的的に解説されている。

◎　画像である手書き数字の「前処理」が勝負の分かれ道だが、

　　目的がほぼ同一である出典３に記述された手順を引用すればよい。

？　数値認識処理もまたほぼ固定的な方法であるから、その難易度は別として、

　　出典３のとおりにやればよいはず。

◎　モデル学習はColaboratory上のGPUで行い、そのモデルを保存、

　　モデルをダウンロード、ローカルPC上でモデルをロード、

　　手書き数字認識、という流れを使っており、一番手軽な手順を示している。

　　−＞なるほど、そうすればよいのか！！！

具体的な手順

１：CNN構築と学習（ディープラーニング）実行

畳み込みニューラルネットワークを自作の手書き数字画像に利用する - 薬剤師のプログラミング学習日記自分で用意した画像から手書き数字の切り出し→前処理と行なってきました。今度はこれらの手書き数字をMNISTデータセットで学習させた畳み込みニューラルネットワーク（convolutional neural network：CNN）に読ませるということをやってみます。また、モデルで分類する数字画像は一文字ずつバラバラの数字ですが、元の画像の位置に応じて数値として…

www.yakupro.info

↑この出典の項目１〜３の部分を参照すればよい。

２：所定フォーム記入済画像の所定箇所から目的の数字部分を抽出

画像から手書き数字を切り出す - 薬剤師のプログラミング学習日記手書き数字をコンピュータに読ませて入力作業を自動化するため、画像から特定の領域にある数字を切り出すプログラムを書きました。なお、本記事の内容は「数字認識を使って棚卸を自動化するアプリケーションを作る」で行った処理のひとつとなっています。切り出す方法複数のマーカーの位置をテンプレートマッチングで取得する cv2.matchTemplateの戻り値の中身 …

www.yakupro.info

３：数字部分の画像データの前処理

手書き数字データに前処理を行う - 薬剤師のプログラミング学習日記前回「画像から手書き数字を切り出す - 薬剤師のプログラミング学習日記」で自分で用意した画像データから手書き数字の部分だけを切り出すことができました。あとはこの手書き数字を画像識別モデルに読ませて数字認識をさせたいところですが、切り出した画像データにはノイズ（意味のない特徴量）が入っていたり、認識させたい数字が画像の端に寄っていたりするものがあります。そこ…

www.yakupro.info

４：CNN構築と学習（ディープラーニング）実行

畳み込みニューラルネットワークを自作の手書き数字画像に利用する - 薬剤師のプログラミング学習日記自分で用意した画像から手書き数字の切り出し→前処理と行なってきました。今度はこれらの手書き数字をMNISTデータセットで学習させた畳み込みニューラルネットワーク（convolutional neural network：CNN）に読ませるということをやってみます。また、モデルで分類する数字画像は一文字ずつバラバラの数字ですが、元の画像の位置に応じて数値として…

www.yakupro.info

↑前述１と同じ出典の項目４〜６の部分を参照すればよい。