テキスト比較ツール「ちゃうちゃう!」原稿や契約書の差分を抽出 -2ページ目

テキスト比較ツール「ちゃうちゃう!」原稿や契約書の差分を抽出

1998年に英語版の開発から始まり、2002年からは日本語対応。
世界のさまざまな言語に対応したテキスト比較ツール「ちゃうちゃう!」の活用ノウハウ集です。

かつては紙原稿での発注が当たり前だった特許明細書の翻訳も、最近はWordデータでの発注が増えています。

 

ただ、たとえばPCTの翻訳文作成で提供される原文データが、WO公報の内容と一致しているとはかぎりません。
 

特許事務所は現地代理人からWordデータを取得することが多いようですが、翻訳会社は単にesp@cenetやPATENTSCOPEのデータをコピーして提供しているだけ、ということもあります。
また、現地代理人からのデータであっても、公報と一致していなかった例は、過去に何度かありました。
 

このため、見直しの際には必ず、データの刷り出しではなくWO公報を使用します。
 

とはいえ人間のすることですから、絶対に見落としをしないと断言するのは難しいのも事実でしょう。

特に、chlorideとchlorineやesterとeterなどの似たような単語や上下付き文字が厄介です。


こういうとき、原文データと、WO公報から自分でOCRをかけたデータを比較してみる方法があります。
あるいは、
 

 (1) 発注元から提供されたデータ
 (2) 自分でOCRをかけたデータ
 (3) PATENTSCOPEのデータ
 (4) esp@cenetのデータ

という4種類を比較してもよいでしょう。
PATENTSCOPEとesp@cenetも、意外と差があります。

 

例)WO1996025202

PATENTSCOPE

 

esp@cenet

 

PATENTSCOPEでは括弧の後ろにスペース(緑で表示)があるのに対し、esp@cenetにはありません。
また、化合物の表記が両方のデータベースで異なります。OCRの誤認識ですね。



例)WO2010151489

PATENTSCOPE

esp@cenet


 

PATENTSCOPEはウェブ上で上下付きがついている場合も、Wordへのコピー時に落ちることがあります。
esp@cenetでは、括弧で上付きの表示がなされています。

この上下付き表示も時期によってあったりなかったりしていますが、いずれにしろ複数のソースから得たデータを比較することで、目視での見落とし漏れを減らすことができます。

OCRはいくつか試したのですが、現時点ではABBYY FineReaderが圧倒的に識字率が高い印象です。
英語はもとより、日本語でも相当に高い精度で認識できるため、非常に重宝しています。

 

 

■ちゃうちゃう!ウェブサイト

http://chaw-chaw.com/

ユーザーが指定する区切り文字から次の区切り文字までが、比較の単位になります。
 

たとえば、区切り文字として半角ピリオドを指定すると、全体を半角ピリオドで区切って、それぞれのブロック(塊)で比較がなされます。
区切り文字に改行(\n)を指定しないかぎり、改行の有無は比較に影響しません

 


例)

 

左側はひとつづき、右側は読点と句点の後ろに改行が入っています。

句点(。)を区切り文字にして比較すると、下図のようになります。紫の枠で囲った部分が、区切り文字によって作られる比較の単位です。

 

 

上と同じデータに対して、改行を区切りにして比較すると、全く違う結果になります。

 

 

区切り文字は、同時に2つ以上を指定することも可能です。


英数字や記号、ひらがな、カタカナ、漢字を区切り文字にしても構いません。
複数の区切り文字を指定するときは、該当する文字をスペースなしで並べてください。
(インストール直後の初期設定では、全角と半角の句点が指定されています。)
 

半角の「\」と「n」の2文字を区切りとして指定する場合は、「n\」と入力します。

「\n」の順だと改行として誤認識されます。

 

ちゃうちゃう!は、2つのウィンドウ上の文字列(テキスト)を比較して、異なる部分を文字単位または単語単位で示すソフトウェアです。

改行や文字の位置に影響されることなく、人間が見比べるときと同じように比較できます。

操作は簡単で、WordやExcel、ブラウザなどから比較したい文字をコピーしてウィンドウに貼り付けるか、ドラッグアンドドロップして比較を実行するだけ。
全体を一度に比較することはもちろん、選択範囲だけを比較することも可能です。
 

 


 

ちゃうちゃう!では、左側のウィンドウを比較元、右側のウィンドウを比較先として、「区切り文字」で指定される単位で比較がなされます。

 

 

このため、比較対象が同じでも、区切り文字を変更するだけで結果が変わります


文書ごとに、最適な区切り文字を上手に使い分けてみてください。

区切り文字による、比較結果の違い



なお、ちゃうちゃう!は、英語や日本語だけでなく、世界のさまざまな言語の文字に対応しています。

詳しくは、ウェブサイトで。