危険なテキストコピペ

ちょっと前に「ぺ」という記事で、ワード等のデータからのコピペは片仮名と平仮名の誤りが生じ得るので危険だという旨の記載をしていたと思います。
しかし、さらに危険なコピペがあります。それは、ＰＤＦからのコピペであります。

ＰＤＦも、もともとワード等のアプリケーションデータから直接作成したものなら、危険度は「ぺ」の記事のコピペと同じなんですが、ここでは、スキャナーで印刷物を読み取ってＰＤＦ化したものの危険性について触れてみようと思います。

昔は専用のソフトがなければできなかったと思うんですが、今は、印刷物を読み取ってつくったＰＤＦファイルの文字列を直接コピー＆ペーストできるようになっております。
しかしながら、そのもとの資料が手書きでなくちゃんとした印刷物であるものであっても、誤認識が非常に多いのです。
全く意味のわからない文字に化けてしまったときはまあいいんですが、「（)」のように全角と半角が混在していたり、妙なところに半角スペースが入っていたり、例えば「ー」（長音）と「－」（ハイフンorマイナス）もしくは「―」（ダッシュ）のように似た形のものに間違えてしまっていたりすると、非常に厄介なものとなります。

似た形のものは結構たくさんあって、さらに挙げるとこういうものがあります。

ただ、これは見た目でわかるのでまだいいです。
問題は、見た目が紛らわしいものです。

これだと、並べると何となく違いがわかるのですが、単体で、しかもフォントサイズ１２とかだと、発見することは難しいでしょう。
例えば、「そのエ事について､窓ロで苦情を申し立てた｡」とあった場合、ぱっと見で間違いはわかりますでしょうか？

ちなみにこの場合の誤りは、
・「工事」の「工」が片仮名の「エ」になっている
・読点（、）が半角になっている上にその後ろに半角スペースが入っている
・句点（。）も半角である
・「窓口」の「口」が片仮名の「ロ」になっている
です。
皆さんは、全部見つけることができたでしょうか。

このような誤りが含まれたものを納品してしまうのは本当に最悪で、顧客からの信頼を失ってしまうことにもつながりかねませんので、絶対に避けなければなりません。

このほかにも、ゴミや汚れを「,」などと読み取ってしまっていたり、改行が変な場所に挟まれていたりと、スキャンしたＰＤＦ資料のデータのコピペ結果には面倒なことが非常にたくさんあります。
それを細かくチェックしながらということになると余計な手間がかかる上に、全てをきちんと見つけ出すことは困難であるため納品物のクオリティーも怪しいものとなるので、ＰＤＦの原稿があっても、私は参考にするだけでコピペはしないようにしております。