翻訳原文データとWO公報を比較 | テキスト比較ツール「ちゃうちゃう!」原稿や契約書の差分を抽出

テキスト比較ツール「ちゃうちゃう!」原稿や契約書の差分を抽出

1998年に英語版の開発から始まり、2002年からは日本語対応。
世界のさまざまな言語に対応したテキスト比較ツール「ちゃうちゃう!」の活用ノウハウ集です。

かつては紙原稿での発注が当たり前だった特許明細書の翻訳も、最近はWordデータでの発注が増えています。

 

ただ、たとえばPCTの翻訳文作成で提供される原文データが、WO公報の内容と一致しているとはかぎりません。
 

特許事務所は現地代理人からWordデータを取得することが多いようですが、翻訳会社は単にesp@cenetやPATENTSCOPEのデータをコピーして提供しているだけ、ということもあります。
また、現地代理人からのデータであっても、公報と一致していなかった例は、過去に何度かありました。
 

このため、見直しの際には必ず、データの刷り出しではなくWO公報を使用します。
 

とはいえ人間のすることですから、絶対に見落としをしないと断言するのは難しいのも事実でしょう。

特に、chlorideとchlorineやesterとeterなどの似たような単語や上下付き文字が厄介です。


こういうとき、原文データと、WO公報から自分でOCRをかけたデータを比較してみる方法があります。
あるいは、
 

 (1) 発注元から提供されたデータ
 (2) 自分でOCRをかけたデータ
 (3) PATENTSCOPEのデータ
 (4) esp@cenetのデータ

という4種類を比較してもよいでしょう。
PATENTSCOPEとesp@cenetも、意外と差があります。

 

例)WO1996025202

PATENTSCOPE

 

esp@cenet

 

PATENTSCOPEでは括弧の後ろにスペース(緑で表示)があるのに対し、esp@cenetにはありません。
また、化合物の表記が両方のデータベースで異なります。OCRの誤認識ですね。



例)WO2010151489

PATENTSCOPE

esp@cenet


 

PATENTSCOPEはウェブ上で上下付きがついている場合も、Wordへのコピー時に落ちることがあります。
esp@cenetでは、括弧で上付きの表示がなされています。

この上下付き表示も時期によってあったりなかったりしていますが、いずれにしろ複数のソースから得たデータを比較することで、目視での見落とし漏れを減らすことができます。

OCRはいくつか試したのですが、現時点ではABBYY FineReaderが圧倒的に識字率が高い印象です。
英語はもとより、日本語でも相当に高い精度で認識できるため、非常に重宝しています。

 

 

■ちゃうちゃう!ウェブサイト

http://chaw-chaw.com/