「﨑」、「瀨」、「髙」のように一発ではテキストに変換できない文字の取り出し方です。
pdftotext.exe が見に行くマップファイル「Shift-JIS.unicodeMap」を編集します。
やりかた | |
---|---|
7027 91eb 702c 90a3 の2行の間に 7028 fb50 を挿入します。これが「瀨」です。 次に「﨑」は 9fa0 ea9e fe30 8164 の間に fa11 fab1 です。 | ![]() |
301c 8160 「~」波ダッシュ
仕組みは
UNICODE Shift-JISとコードを並べるだけなので、出ない文字があれば、両方の文字体系でコードを調べて、
追加すれば変換してくれます。代替文字に変換するやりかたもこれでOK。
話は別だけど、pdftotext はバージョンで出力が変わってしまうようです。
同じ -raw オプションでも順番が変わって取り出されたりするので注意が必要。