OCR認識後のテキストを「整形」する(2) | 特許翻訳 A to Z

特許翻訳 A to Z

1992年5月から、フリーランスで特許翻訳者をしています。

産業翻訳者のためのパソコン活用術 > ワイルドカード検索・置換
復刻シリーズです。

 

2000年代前半頃の記事から復刻させていますので、現在の環境で利用する場合は、事前にテストをしてください。

 

-------------------

 

前回は、文章に混入した行番号の取り除き方でした。
ここでは、落ちてしまったタブを元に戻す方法を取り上げます。画像で黄色の部分です。



最もシンプルなのが、Wordの検索する文字列に
 ^13([A-Z])
と入れ、置換後の文字列に
 ^13^9\1
と入れて置換する方法です。

^13 = 改行記号
([A-Z]) = 半角大文字A~Zの任意の1文字
^9 = タブ
\1 = もともとある半角大文字A~Zの任意の1文字を変更せずにそのまま残す指示

という意味で、ようするに「改行+英大文字1つ」を「改行+タブ+もとの英大文字1つ」に置換しています。
ただ、これだと段落の先頭が数字の場合や記号の場合が含まれません。
その場合、置換後の文字列はそのままで、検索する文字列を


^13([!a-z])

と書く方法もあります。

[!a-z] = 半角小文字a~z以外の文字

という意味です。
このように、タブを元に戻すという操作ひとつにしても、方法は複数あります。
OCRで取得したデータの内容によっては、上にあげたどちらとも違う方法がベストかもしれません。

最終的には、そのときどきで自分の目の前の条件に合った方法を考えることになりますが、ひとつの参考になれば何よりです。
 

■関連記事

OCR認識後のテキストを「整形」する(1)