Google Docsには以前からOCR機能があったのだが、英語版などの対応はあっても、日本語版の対応はされていなかった。
ところが昨日英語の文章をOCRで読み取って、日本語化するというのを試しているときに、日本語対応がすでにされていることに気がついた。そこでさっそく試してみたが、これはちょっとびっくりというぐらい素晴らしい読み取りである。
実際に今日の毎日新聞の「余録」の一部のスキャナーで読み取ってGoogleDocsにアップロードして見た例を紹介する。
まず、Googleドキュメントの画面を表示する。
その画面で右上にある「作成」の隣のアップロードボタンをクリックする。そしてファイルをクリックし、アップロードをするファイルを選択すると、以下のような画面が出てくる。

この画面で「PDFや画像ファイルからテキストをGoogleドキュメントのドキュメントに変換する」の左にある四角をクリックして、チェックマークを入れる。そして、アップロードを開始すればよい。そうするとファイルがアップロードされると同時にOCRで読み取られてテキストの変換されるのだ。


実際のファイルを見てみると上のようになっている。スキャナーで読み取った画像が上に表示され、その下に変換したテキストの文章が表示される。
一部変換がおかしいところもあるが、大部分は正確に変換されている。それに素晴らしいのは、日本語の縦書きにも対応していることだ。縦書きであることも自動的に認識しているようだ。
今回はスキャナーで読み取った文章で試してみたが、携帯のカメラで撮ったような画像でも変換が可能ではないかと思う。試してみたい。