Wordのワイルドカード機能を使用して、文字の重複誤記を検索する方法です。
たとえば、下記のハイライト部分のような誤記を検索します。
本件審判請求に係る特許第○○号(以下、、「本件特許」という)は、平成○年○月○日に特願○号として特許出願されたものであって、平成○年○月○日にその特許権の設定登録がなされ、平成○年○月○日に本件訂正審判の請求ががなされたものである。 本件訂正審判の請求は、本件特許の願書に添付した特許請求の範囲(以下、「本件特許請求のの範囲」という)を、本件審判請求書に添付された特許請求の範囲のとおりに訂正することを認める、との審決を求めるものである。。 |
検索する文字列: ([あ-ん、。])\1
[あ-ん、。]は、「あ」から「ん」までの平仮名と句読点「、」と「。」の任意の1文字を示す範囲指定です。
そして同じ文字を繰り返すことを、\1で指定しています。
単に同じ文字が2つ繰り返される部分を検索するだけですから、たとえば「とは言うものの」という場合の「のの」や「田んぼにかかしが」という場合の「かか」など、誤記ではない文字列も当然ヒットします。
このようなノイズが混じることを最初から承知の上で、許容しています。
もちろん、JustRight!など市販の日本語校正ソフトを使えば、上記のような誤記の多くは抽出されます。
ただ、校正ソフトといえど完全ではなく、重複誤記もわりと見落とされているのが現状です。
あるいは、そもそも校正ソフトを利用できない環境で作業をすることも、あるでしょう。
かたや正しいものもヒットしてもよいという「緩さ」を許容することで、Wordの基本機能だけで、シンプルに重複誤記を抽出することができます。
もともとある機能ですから、余分なコストもかかりません。
コンピューターを上手に使うコツは、「100%完全を求めない」こと。
マクロプログラムにしろワイルドカード検索&置換にしろ、この考え方が、とても重要です。
仮に誤記「だけ」を完全に抽出しようとすると、複雑な構文解析・意味解析が必要になるでしょう。
完璧を求めないようにするだけでシンプルになるわけですから、ノイズなんて誤差の範囲ですね(笑)。
参考までに、JPlatPatのデータベースで「特許(特開・特表(A)、再公表(A1)、特公・特許(B))」を指定して、公報全文を検索してみると、2018年8月20日現在で読点の重複「、、」は約120万件、句点の重複「。。」は約35万4千件ヒットします。
権利範囲の規定、権利行使などの観点で実害はないと思いますが、検索結果を見るかぎり、句読点の重複だけでもかなりあると言えるでしょう。
これを基本機能のシンプルな検索で抽出できるわけですから、やっておいて損はないと思います。
なお、検索式を覚えておくのが大変であれば、仮名漢字変換に「単語登録」すると便利です。
私は「ちょうふく」という読みで上の条件式を登録していますが、忘れにくいものなら何でも構いません。
これに限らず、よく使うワイルドカードの条件式は仮名漢字変換に登録しておくとよいでしょう。
最後に、3文字の重複を指定する場合は「\1」をひとつ増やして([あ-ん、。])\1\1、4文字なら([あ-ん、。])\1\1\1と個々に記述します。
また、文字の範囲を変えたい場合も、適宜変更してください。