[メモ] 機械翻訳の訳文、システム間の類似度を比較させてみた。 | 情報検索、プロの視点/酒井美里ブログ

[メモ] 機械翻訳の訳文、システム間の類似度を比較させてみた。

私は今、、
TotalPatentのセミナー準備 、真っ最中。


TotalPatentは、中国をはじめ、
何カ国か、機械翻訳の英文フルテキストが追加されたので、
今回、「中国特許」の比較事例を中心に、準備してます。


そんな中・・・

Dialogでも、Chinese Patents Fulltext (325) に、
英文の全文データが入った、というニュースが!!
(以下、この記事中では ChinaPatFull と書きます。)



さて、当然といえば当然ですが、
TotalPatent と、ChinaPatFull とでは、英文データの制作元が違います。


レクシスネクシスの方から、この情報を教えていただいて、
真っ先に浮かんだ疑問は・・・


「でも、正直、
 両者の訳文は、どの程度違っていて
 どの程度まで似ているの?」


・・・だって、翻訳用のマシンが訳すものですし、
基本的な辞書、訳語などのレベルでは、
似通った点も多いはずですよね。


「もしかしたら、そんなに違わないのかも?」



と、いうことで。



「類似度」 で表現すると、どの程度似ているか
を、調べてみました。



使ったツールは、
PHPで2つの文章の類似度を計算する
です。



※ なお、今回の記事では、
  「どちらの訳文が、どのシステム」なのか、は
  あえて記載しません。ご了承くださいませ。



まず、同じ公報番号を使い、
両システムで、機械翻訳全文を表示させ、
それぞれ、エディタに貼付けます。



次に、対応する箇所に、同じ色をつけます。

情報検索、プロの視点/酒井美里ブログ


元々同じ文章の、同じ位置を探すわけですから、
すんなり発見できそうなものですが・・・

実際には、
両者の改行頻度がかなり違って、探しにくかったのと、
また、訳語も案外違っていたりして、


色付け作業の時点で、
「どこだ どこだ?」と、相手を捜し回りました。



これは・・・
意外と、低めの類似度が出るかも!
 (・・・って、何を期待しているんだか。笑)



では、比較結果。
3パラグラフ分、続けてお見せします。

※比較テキストに、目を凝らしていただくと、
  「ほんとだ、意外と文章違うんだ。」 と、実感できるかと思います。


-比較3




比較1




他にも何カ所か、比べてみまして、
類似度は概ね、45~55%程度、といったところ。


元は、同一の中国特許公報なのに・・・って考えると、
意外と、類似度が低いような気もしますし、


「でも、別々の翻訳者(人間)が訳したら?」 と考えると、
人手翻訳であっても、この程度の類似度になるのかもしれません。
   (こちらは、試した事はありませんが・・・)



※ この翻訳比較、
セミナーでご紹介するかは、まだ未定です。
  ・・・面白いんですが、内容が内容なので、没になるかも・・・ahaha;*


中国特許、ご興味のある方はご検討ください。入場無料です。


※終了しました!