続・Googleの検索結果と「実在しない」コンテンツ | 特許翻訳 A to Z

特許翻訳 A to Z

1992年5月から、フリーランスで特許翻訳者をしています。

「世界初」「唯一」は、事実?との関連です。

Googleで"argon tetroxide"を検索すると、中国語から英語に自動翻訳された明細書が検索結果に混じることに言及しました。
Google Patentの範囲内「だけでなく」、通常のWeb検索の結果です。
こうして混じってくるコンテンツには、ある問題が生じています。

今回は中国語の例ですが、経験上、日本語や韓国語といったアジア圏の言語からの自動翻訳で生じやすい現象です。
以下、具体例をあげながら示します。

■該当キーワードが存在しない
まず、前回画像で示した結果のうち、タイトルに「Patent CN100374506C - 辐射敏感树脂组合物The radiation-sensitive...」と出ているものには、そもそも中にargon tetroxideという語が含まれません。
画像を入れておきますが、実際のコンテンツは、CN100374506Cで確認できます。


(クリックで拡大)

argon tetroxideという「フレーズ」どころか、各々の単語すら含まれていない状態です。
これでなぜヒットするのか、不明です。

■同じ語が、別の訳になっている
次は、検索結果に「CN101452224A - Google」と出ている公報です。
こちらは英文中にargon tetroxideが含まれますので、該当部分をいくつか抜粋します。


おおよそ、このあたりに対応しているだろうという中国語の原文も併記します。
これは、Googleが「中国語から翻訳」と出していた「中国語」の部分をクリックして表示された、中国語の公報から拾いました。
 

Argon tetroxide Yue ammonium developer recovery system and method
氬氧化四曱铵显影液的回收系统及其方法

four 曱 ammonium hydroxide at 210nm The standard concentration curves obtained absorbance of the argon tetroxide Yue ammonium absorbance A3 corresponding concentrations.
以及以氢氧化四曱铵在210nm的标准浓度吸光曲线求出该氩氧化四曱铵吸光值A3对应的浓度。

When the developer recovery system in a steady state, the present invention further provides a cylinder of argon tetroxide 曱 developer of ammonium recovery process, the recovery of the method was applied to the development process hydroxide recovered after a four 曱 ammonium
在显影液回收系统处于稳定状态时,本发明进一步提供一种筒化的氬氧化四曱铵显影液的回收方法,该方法适用于显影过程之后的回收液中氢氧化四曱铵的回收使用

Figure 6 is a schematic diagram of the recovery system framework argon tetroxide 曱 ammonium developer an embodiment of the invention.
图6为本发明的 一 实施例中的氬氧化四曱铵显影液的回收系统框架图。

In order to obtain Co, can be pre-established argon tetroxide 曱 ammonium concentration at a wavelength of 210nm when TMAH210 - extinction curve as a calibration curve, ie TMAH at different concentrations, the corresponding absorption at a wavelength of 210nm of.
为了求得Co,可预先建立氩氧化四曱铵在波长210nm时的TMAH210 浓度-吸光曲线,作为检量线,亦即在不同TMAH浓度时,在波长210nm的 对应吸收度。

 

さて。
これらの中国語には、「共通する文字の並び」があります。

同じ色でハイライトしたものが、同じ文字です。ただ、よく見るとどれも似ていますよね。

そこでオリジナルの公報(PDF)を参照したところ、すべて同じ文字(氢氧化四甲铵)が入っています。
Googleのデータは、おそらくはOCRの誤認識でしょう。

そして「氢氧化四甲铵」の意味は、水酸化テトラメチルアンモニウム(tetramethylammonium hydroxide)のようです。
ようするに、水酸化テトラメチルアンモニウムを示す中国語が、

 (1)複数の異なる文字列としてテキストデータ化され、

 (2)テキスト化された文字列に基づいて、Googleによって自動的に英語に翻訳され、

 (3)「argon tetroxide Yue ammonium」、「argon tetroxide 曱」、「argon tetroxide 曱 ammonium」、「four 曱 ammonium hydroxide」、「four 曱 ammonium」といった文字化け混じりの異なる英語に翻訳され、

 (4)英語の「argon tetroxide」をキーワードにした検索にヒットした、

ということだと思います。

「テトラ」メチルですから、数字の「四」はこれに相当するのでしょう。
水素は「氢」なので、「氢氧化」が水酸化物。

「铵」は文字からアンモニウムで、そうすると残った「曱」がメチル基だと思います。


これを見るかぎり「argon tetroxide」を生みだした原因にメチルとアンモニウムは関係なさそうですから、問題は「氩氧化」と「氬氧化」の誤認識部分にあると考えられます。

周期表を確認すれば、これらの文字が何を意味するかは簡単にわかります。
Wikipediaで日本語の周期表から左のサイドバーで「中文」を選び、中国語の周期表を入手しました。

「氧」は、酸素です。水酸化物からも予測ができますね。
「氬」は、アルゴンでした。「氩」は周期表に載っていないのですが、調べたらこれもアルゴンです。
検索結果に公報のargon tetroxideが含まれた原因は、間違いなく、ここにあります。
誤認識文字の自動翻訳、だということです。

参考までに、同じ出願に対するOCRデータについてGoogleと欧州特許庁を比較したところ、要約書を除く明細書本文+請求項に「氢氧化四甲铵」という文字が、Googleで15箇所、EPOで91箇所ありました。
識字率の差は、歴然です。


翻訳者のみならず、Googleを使って英単語等の使用頻度を確認する人は、少なからずいるでしょう。
その場合、検索結果で最初に表示される件数が実数「ではない」ことに加えて、実数の中にも、このような無意味なコンテンツが相当数で混じる可能性を、しっかり念頭におく必要があると思います。

数年前まで、Googleで語句の使用頻度や表現を確認する手法は、ある程度有効に機能しました。
でも、この方法は時代の遺物というか、もはや使えないものになりつつあるのかもしれませんね。

■関連記事
「世界初」「唯一」は、事実?
Googleの検索結果と「実在しない」コンテンツ
OCR誤認識の自動翻訳が生み出す影響
Google検索結果に混入する、膨大な「自動英訳」データ
世界のグーグル、いくつある?
 


インデックスへ