繰り返し読んで身につけたいPDFがあるとき、PDFファイルのテキストをかんたん!AITalkにペーストして、4倍速で読み上げさせて、繰り返し聞くようにしています。
ところが、スライドをPDFにしたものは、テキスト全部を一度にコピーすることができません。
1ページずつコピペしていくとなると、手間と時間がかかります。
そこで、PDFのテキストを抽出する方法を検索しましたが、使える方法を見つけるのに結構手こずりました。
幸い、ドキュメントスキャナに付属していたAdobe Acrobat DC があるので、自分の環境ではAdobe Acrobat DC を使えばよいことがわかりました。
手順は、PDFファイルをAdobe Acrobat DC で開いて、ファイル→テキストとして保存すると、一瞬でテキスト化できました。
通常、Adobe Acrobat DC は月額課金制らしいので、使っている人は少ないかもしれません。
そこで、他の方法もいくつか試してみたところ、PDF to Text Converter なら、無料でテキストの抽出ができました。
ただし、通常のPDFでコピペするときと同様に、ページごとにCopyright(C)~が入るので、置換を使って一括で削除する必要があります。
この点ではAdobe Acrobat DC ではCopyright(C)~が入らないので、その手間が省けます。
逆にAdobe Acrobat DC では、空白行が結構入ります。ただ、聴く分にはほとんど影響ありません。
PDF to Text Converter でできたtxtファイルではページごとに1行空き、ページ内に空白行はできないので、見やすいです。
結局 PDF to Text Converter の方がおすすめできるかもしれません。