pdfファイルをtext形式に変換
こんばんは
本日は、pdfファイルからテキスト部分を抽出するコマンド、
pdftotextを紹介いたします
pdftotextコマンドをCentOS5で使用するには、xpdfパッケージがなくなっており、
poppler-utilsというパッケージをインストールする必要があるとの事なので、
実際にインストールしてみます
■インストール
# yum install poppler-utils を入力し、実行する。
以下のような画面が表示されますので、[y]を押してEnterキーを押してください。
以下のPDFを使用致します。
http://www.itec.co.jp/topics/pdf/20110525.pdf
インストール済みのFirefoxなどで開いてみます。
また、任意の場所にPDF保存を致します。
以下のコマンドにてテキストに変換してみます。
#pdftotext 20110525.pdf 20110525.txt
変換したテキストを開いてみますと、テキストのみ表示されるのが分かります
他にも、以下のコマンドもあります。
textEncodingで指定した文字コードでテキストファイルを生成します。
場合によって文字コードを変更したい場合は、-encオプションで適切な文字コードを指定する。
#pdftotext -enc EUC-JP sample.pdf sample.euc ←EUCで出力
#pdftotext -enc Shift-JIS sample.pdf sample.euc ←シフトJISで出力
本日は、ここまでとしま~す
また、アップいたしますので、お待ちください