pdftotext で環境依存文字を扱う | 小さなミイZ プログラミング日記

小さなミイZ プログラミング日記

おもに perl でこんなことやってますといった報告的なメモです。

テーマ:

「﨑」、「瀨」、「髙」のように一発ではテキストに変換できない文字の取り出し方です。
pdftotext.exe が見に行くマップファイル「Shift-JIS.unicodeMap」を編集します。

やりかた
7027 91eb
702c 90a3
の2行の間に
7028 fb50
を挿入します。これが「瀨」です。
次に「﨑」は
9fa0 ea9e
fe30 8164
の間に
fa11 fab1
です。
文字コード編集例


9ad9 fbfc 「髙」
301c 8160 「~」波ダッシュ
 仕組みは
UNICODE Shift-JIS
とコードを並べるだけなので、出ない文字があれば、両方の文字体系でコードを調べて、
追加すれば変換してくれます。代替文字に変換するやりかたもこれでOK。

 話は別だけど、pdftotext はバージョンで出力が変わってしまうようです。
 同じ -raw オプションでも順番が変わって取り出されたりするので注意が必要。
AD