ソースネクストの『いきなりPDF Ver.11 STANDARD』を購入して使ってみました。
STANDARDでもテキスト抽出(文字認識)ができるので、安価なSTANDARDにしました。
3,000円台で購入できました。
バリュープランなら2,980円でSTANDARDからCOMPLETEに機能のアップグレードができます。
ScanSnapで縦書きの本をスキャンして作ったテキストなしのPDFで文字抽出をしました。
「高性能なOCRエンジンを搭載」と謳っているだけあって、正しく左から順番にテキスト抽出されていました。
ScanSnapでテキスト付きのPDFにした場合、たとえば、6行目から10行目の後に1行目から5行目が来ていたりして、聴くために利用することができませんでした。
Google Driveでテキスト抽出すると、いきなりPDFより誤認識が少ないです。
ただ、Google Driveは2MBまでしかテキスト抽出できません。
いきなりPDFなら大きなPDFファイルでも、一度に透明テキスト付きのPDFにすることができます。
いきなりPDFは、Word、Excel、PowerPoint、テキスト、JPEG形式などに変換することもできます。
ScanSnapで作った透明テキスト付きのPDFのテキスト内容が聴くのに適していないとき、いきなりPDFが活躍してくれそうです。