ほらっ! よくある話なんですけど。
企業・商店に関わらず、商取引を行っている所では
月末になると忙しいっていう現実がありますね。

私はいつも思うのですが、
その事務処理での時間の使われ方は、どうでしょうか?

この作業に時間を掛け過ぎてはいないでしょうか?
ビジネス文書のデータ入力(請求書、領収書など)

データ入力というのは、転記の作業であって
要するに、書き写す作業なんです。
左にあるものを、右へ複写しているだけで
その作業に対しての付加価値というのは
非常に考えにくいと思うのですが・・・
転記に体力を使いたくは、ないですよね?
ならば、紙媒体をスキャンして画像化し、
その画像から文字を取り出せないか?

そんな訳で、光学文字認識というものを試してみようと思ったのであります。

光学文字認識 OCR (Optical character recognition)


参考 光学文字認識ソフトウエア tesseract-ocr
https://github.com/tesseract-ocr/

環境は、debian 10 based linux distribution Q4OS
https://q4os.org/

1,印刷文字 雑誌 横書き

 

sample1.jpg


 

sample2.jpg




2,印刷文字 雑誌 縦書き

 

sample3.jpg


 

sample4.jpg




3,買い物レシート

 

sample5.jpg


  テストケース
  a,日本語としての解析
  b,日本語の中に英数字が含まれているという設定での解析

テスト結果(文字数の都合で一部だけを紹介します。

1,印刷文字 雑誌 横書き

sanple1.jpg の、実行結果



sanple2.jpg の、実行結果



2,印刷文字 雑誌 縦書き

sample3.jpg の、実行結果



sample4.jpg の、実行結果



3,買い物レシート

sample5.jpg の、実行結果

a, 日本語としての解析



b, 日本語の中に英数字が含まれているという設定での解析



雑誌の印刷文字の解析結果は、高精度だということがわかりました。
それに対して、買い物レシートは、ちょいと、しんどい。

買い物レシートで、高精度な結果が出れば、
日常生活での応用が可能になるのですが。

例えば:
買った食品・食材から、栄養成分を集計・分析すれば
タンパク質・脂質がどれくらい摂取できていおるか?
糖質はどれくらい抑制できているか?
などが、月単位や季節単位での分析が各家庭で可能になり得る。

そんなものは、紙媒体ではなくて電子化すればいいのではないか?
そんな意見が出たとしても、おかしくはありません。

が、しかし、電子化は・・・
不正改ざんとか、他者への情報漏えいとかが問題として残ります。

紙媒体というのは、実は案外、確かな伝達方法なのかも知れません。

さて、皆様は、どのようにお考えでしょうか?

P/S この時の実験画像と実験結果を
tesseract.zip としてアップロードしておきました。
こちらからダウンロードできます。

https://www.mediafire.com/file/jkufvoboxr77vgq/tesseract.zip/file


ということで、今回お送りする動画は、
素敵な DJ シャーロット・デ・ウイット のライブ

Charlotte de Witte | Tomorrowland Belgium 2018