画像の中に写っている(含まれている)文字を読み取ってテキスト化する OCR機能は古くからありますが、ここにきて AI技術の向上とともにより進化してきています。
ちなみに、「OCR」は「Optical Character Recognition/Reader:光学的文字認識」機能のことです。

Windows PC上で作業するなら、過去に「PowerToys「Text Extractor」」記事でご紹介した「PowerToys」が使えますし、スマホなどで取り込むなら「Google検索アプリ」に備わる「Google Lens」機能などが使えます。

今回ご紹介するのは Googleドライブの OCR機能です。

Googleドライブに格納した画像ファイル「PCリサイクル.jpg」を例に試してみます。
この画像ファイルは、PCの廃棄処分を依頼したときの配送控えを撮っておいたものです。
このファイルの「…」から [アプリで開く]-[Googleドキュメント]を選択します。(下図)

 

すると、Googleドキュメントが開きます。
1ページめには、この画像がそのまま貼り付けられて表示されています。(下図)

 

一般に OCRでは印字されたテキストは比較的上手くテキスト化ができますが、手書き文字や斜めになった文字などは誤認識される場合が多いです。
この例では、手書きで「\910」「80サイズ」と書かれた部分や、スタンプとして押された文字がどのように認識されるかに注目してみます。

ドキュメントの 2ページめに、この画像についてテキスト認識された結果が表示されています。(下図)

 

印字されたテキストはほぼ正しく認識されています。
手書きの「\910」が「$910」に、「80サイズ」が「8 サイズ」となっています。
後者については、その下方に「80サイズ」と正しく認識されています。
また、スタンプ中の「葛飾新宿」は「小新愛」となりましたが、「4.11.22」や「12-18」は円に沿った文字が斜めに配置されているのに正しく認識されました。
スタンプ中の「葛飾」は元々文字がかすれている状態なので致し方ないとも思えます。

印字文字でありながら 1ヶ所だけ誤認識されたのが、下方にある電話番号の下 4桁「0576」→「0578」部分だけでした。
これも、スタンプの外枠の円が重なっているので、不利な条件であると言えるところです。

Googleドライブでは、ドキュメントを作成した時点で自動的に同名のファイル名で保存されますので、作業終了後にも確認できます。

なお、Googleドライブの OCR機能に使えるファイルとしては、以下の要件となります:

  • 形式:JPEG、PNG、GIF、PDFの各ファイル
  • サイズ:ファイルは 2MBまで
  • 解像度:テキストの高さは10ピクセル以上


この Googleドライブの OCR機能も、AI技術により読み取り精度を向上させているもので、Google検索などに付属する「Googleレンズ」と同じ、もしくは同系統の機能を使ったものと考えられます。

したがって、iPhoneなどスマホであれば「Google検索アプリ」、PCなどで Google Chromeブラウザで Google検索ページなどからも同様にテキスト化ができます。
そのため、JPEGファイルや PDFファイルを Googleドライブにアップロードするのが面倒である方は、上記の「Google検索」にある「Googleレンズ」機能を使うとよろしいでしょう。