pdfファイルをtext形式に変換 | 美女Linux☆目指せ!!頼られるインフラ系Linuxエンジニアへの道しるべ☆Produced by 美女Linux

pdfファイルをtext形式に変換

こんばんは星空


本日は、pdfファイルからテキスト部分を抽出するコマンド、

pdftotextを紹介いたしますニコニコ


pdftotextコマンドをCentOS5で使用するには、xpdfパッケージがなくなっており、
poppler-utilsというパッケージをインストールする必要があるとの事なので、
実際にインストールしてみますサーチ


■インストール


# yum install poppler-utils を入力し、実行する。


美女Linux☆目指せ!!頼られるインフラ系Linuxエンジニアへの道しるべ☆Produced by 美女Linux-pdftotext_1

以下のような画面が表示されますので、[y]を押してEnterキーを押してください。


美女Linux☆目指せ!!頼られるインフラ系Linuxエンジニアへの道しるべ☆Produced by 美女Linux-pdftotext_2


■稼働確認


以下のPDFを使用致します。

http://www.itec.co.jp/topics/pdf/20110525.pdf


インストール済みのFirefoxなどで開いてみます。


美女Linux☆目指せ!!頼られるインフラ系Linuxエンジニアへの道しるべ☆Produced by 美女Linux-pdftotext_3


また、任意の場所にPDF保存を致します。

以下のコマンドにてテキストに変換してみます。


#pdftotext 20110525.pdf 20110525.txt


美女Linux☆目指せ!!頼られるインフラ系Linuxエンジニアへの道しるべ☆Produced by 美女Linux-pdftotext_4

変換したテキストを開いてみますと、テキストのみ表示されるのが分かりますメモ


美女Linux☆目指せ!!頼られるインフラ系Linuxエンジニアへの道しるべ☆Produced by 美女Linux-pdftotext_5


他にも、以下のコマンドもあります。


textEncodingで指定した文字コードでテキストファイルを生成します。
場合によって文字コードを変更したい場合は、-encオプションで適切な文字コードを指定する。


#pdftotext -enc EUC-JP sample.pdf sample.euc ←EUCで出力
#pdftotext -enc Shift-JIS sample.pdf sample.euc ←シフトJISで出力


本日は、ここまでとしま~すグッド!


また、アップいたしますので、お待ちくださいかに座