本をスキャンしてOCRの結果を聴く場合、ScanSnapのOCRを使い、目次や写真などが含まれるページだけ聴かずに飛ばし、後から読むのがよいでしょう。
ScanSnapのOCRでは、いろいろ誤変換がありますが、時間効率を考えると、一部は聴かないことで対処するのがベターです。
GoogleドキュメントのOCRを使うと、ほとんど正確に文字変換されますが、それなりに手間暇がかかるので、実用的ではないかもしれません。
ScanSnapでOCRを使う場合と、使わずに後からGoogleドキュメントのOCRを使う場合を比較してみたので、以下に示します。
ScanSnapでOCRを使っても使わなくても、スキャンにかかる時間はほとんど変わりません。
あの時間でOCRを済ませてしまうのには驚きです。
文字だけが続く場合には、たまに誤変換がありますが、ほとんど正しい文字に変換されます。
目次では、ページが漢字に変換されてしまいます。
縦書きの文章中の2桁の数字も漢字に変換されます。
太い線が■と漢字に変換され、中の文字も元の文字と全く異なる文字が羅列されることがあります。
横書きが含まれるページの後で、塊で左から右に読んでいく傾向があります。
イラストの一部が文字に変換されます。
大文字の並び以外の英文やURLは壊滅的です。
近くの日本語も全く関係ない文字に変換されます。
サイトの縮小画面などは、ワケのわからない文字の羅列になります。
商品の写真も文字の羅列になります。
他にもあるでしょうが、キリがないのでこれくらいにしておきます。
GoogleドキュメントのOCRは、かなり正確です。
縮小写真の中の英文もほぼ正確に変換してしまうくらいです。
ただ、縦書きと横書きが混在している場合、縦書きも左から右に読んでしまいます。
OCR機能は断然Googleドキュメントの方が上ですが、手間暇がかかるのが難点です。
まず、ScanSnapでOCRを使わずにスキャンします。
できるPDFは本1冊だと、2MBを超えるのは必至です。
GoogleドキュメントのOCRは無料で使えますが、2MBほどが限度です。
なので、ScanSnap付属のソフトで2MBほどに分割する必要があります。
その分割されたPDFをすべてGoogleドキュメントで開きます。
その結果をコピペしてメモ帳などで1つにまとめます。
その中で左から右に読まれた部分を修正します。
修正後、Google Chromeで表示します。
最後にそのページを印刷でPDF化します。
ということで、あまり実用的ではありませんが、何度も聞き返したい本に関しては、このようにしてPDFを作っておくのもありでしょう。