pdftotext で環境依存文字を扱う

2015-05-16 08:54:06

「﨑」、「瀨」、「髙」のように一発ではテキストに変換できない文字の取り出し方です。
pdftotext.exe が見に行くマップファイル「Shift-JIS.unicodeMap」を編集します。

やりかた
7027 91eb 702c 90a3 の２行の間に 7028 fb50 を挿入します。これが「瀨」です。次に「﨑」は 9fa0 ea9e fe30 8164 の間に fa11 fab1 です。

9ad9 fbfc　「髙」
301c 8160 「～」波ダッシュ

　仕組みは

UNICODE Shift-JIS
とコードを並べるだけなので、出ない文字があれば、両方の文字体系でコードを調べて、
追加すれば変換してくれます。代替文字に変換するやりかたもこれでOK。

　話は別だけど、pdftotext はバージョンで出力が変わってしまうようです。
　同じ -raw オプションでも順番が変わって取り出されたりするので注意が必要。

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

小さなミイＺ　プログラミング日記

おもに perl でこんなことやってますといった報告的なメモです。

pdftotext で環境依存文字を扱う