スライド形式のPDFのテキストを簡単に抽出する方法

繰り返し読んで身につけたいPDFがあるとき、PDFファイルのテキストをかんたん！AITalkにペーストして、4倍速で読み上げさせて、繰り返し聞くようにしています。

ところが、スライドをPDFにしたものは、テキスト全部を一度にコピーすることができません。

1ページずつコピペしていくとなると、手間と時間がかかります。

そこで、PDFのテキストを抽出する方法を検索しましたが、使える方法を見つけるのに結構手こずりました。

幸い、ドキュメントスキャナに付属していたAdobe Acrobat DC があるので、自分の環境ではAdobe Acrobat DC を使えばよいことがわかりました。

手順は、PDFファイルをAdobe Acrobat DC で開いて、ファイル→テキストとして保存すると、一瞬でテキスト化できました。

通常、Adobe Acrobat DC は月額課金制らしいので、使っている人は少ないかもしれません。

そこで、他の方法もいくつか試してみたところ、PDF to Text Converter なら、無料でテキストの抽出ができました。

ただし、通常のPDFでコピペするときと同様に、ページごとにCopyright(C)～が入るので、置換を使って一括で削除する必要があります。

この点ではAdobe Acrobat DC ではCopyright(C)～が入らないので、その手間が省けます。

逆にAdobe Acrobat DC では、空白行が結構入ります。ただ、聴く分にはほとんど影響ありません。

PDF to Text Converter でできたtxtファイルではページごとに1行空き、ページ内に空白行はできないので、見やすいです。

結局 PDF to Text Converter の方がおすすめできるかもしれません。

アメブロで収入を得たいと考えている主婦の方には参考になるかもしれません。

↓

アメブロで主婦の日常を記事にして収入を得よう!