かつては紙原稿での発注が当たり前だった特許明細書の翻訳も、最近はWordデータでの発注が増えています。
ただ、たとえばPCTの翻訳文作成で提供される原文データが、WO公報の内容と一致しているとはかぎりません。
特許事務所は現地代理人からWordデータを取得することが多いようですが、翻訳会社は単にesp@cenetやPATENTSCOPEのデータをコピーして提供しているだけ、ということもあります。
また、現地代理人からのデータであっても、公報と一致していなかった例は、過去に何度かありました。
このため、見直しの際には必ず、データの刷り出しではなくWO公報を使用します。
とはいえ人間のすることですから、絶対に見落としをしないと断言するのは難しいのも事実でしょう。
特に、chlorideとchlorineやesterとeterなどの似たような単語や上下付き文字が厄介です。
こういうとき、原文データと、WO公報から自分でOCRをかけたデータを比較してみる方法があります。
あるいは、
(1) 発注元から提供されたデータ
(2) 自分でOCRをかけたデータ
(3) PATENTSCOPEのデータ
(4) esp@cenetのデータ
という4種類を比較してもよいでしょう。
PATENTSCOPEとesp@cenetも、意外と差があります。
例)WO1996025202
PATENTSCOPE
esp@cenet
PATENTSCOPEでは括弧の後ろにスペース(緑で表示)があるのに対し、esp@cenetにはありません。
また、化合物の表記が両方のデータベースで異なります。OCRの誤認識ですね。
例)WO2010151489
esp@cenet
PATENTSCOPEはウェブ上で上下付きがついている場合も、Wordへのコピー時に落ちることがあります。
esp@cenetでは、括弧で上付きの表示がなされています。
この上下付き表示も時期によってあったりなかったりしていますが、いずれにしろ複数のソースから得たデータを比較することで、目視での見落とし漏れを減らすことができます。
OCRはいくつか試したのですが、現時点ではABBYY FineReaderが圧倒的に識字率が高い印象です。
英語はもとより、日本語でも相当に高い精度で認識できるため、非常に重宝しています。
■ちゃうちゃう!ウェブサイト