その翻訳の方法について書かれた記事を教えてもらいました。
"How Google Translate works"という英語の記事です。
http://www.independent.co.uk/life-style/gadgets-and-tech/features/how-google-translate-works-2353594.html
これをそのGoogle翻訳で訳してみました。
やってみるとなかなか完全に理解できる翻訳とまではいかなかったので、私自身が(できるだけ直訳で)訳し直してみました。
-------------------------------------
"How Google Translate works"
Google翻訳の仕組み
(tomam:いきなり、うまい訳です。)
Using software originally developed in the 1980s by researchers at IBM, Google has created an automatic translation tool that is unlike all others. It is not based on the intellectual presuppositions of early machine translation efforts – it isn't an algorithm designed only to extract the meaning of an expression from its syntax and vocabulary.
もともとIBMの研究者によって1980年代に開発されたソフトウェアを使用して、Googleは他のすべてとは違っている自動翻訳ツールを作成しました。それは、初期の機械翻訳の努力の知的前提に基づいているわけではありません - それは、その構文と語彙から表現の意味を抽出するためにのみ設計されたアルゴリズムではありません。
(tomam:ほぼ完璧ですね。訳し直しの必要はないでしょう。)
In fact, at bottom, it doesn't deal with meaning at all. Instead of taking a linguistic expression as something that requires decoding, Google Translate (GT) takes it as something that has probably been said before.
実際には、一番下に、それはまったく意味を扱っていない。代わりに、デコードが必要なものとして言語表現を取ることを、Google翻訳(GT)は、おそらく前に言われているものとして、それを取ります。
(tomam ・・・ここはうまく訳せてないですね。
実際、それは基本的には意味を全く扱っていません。Google翻訳(GT)は、言葉の表現を、解読が必要なものととらえる代わりに、以前に多分言われたことがあるものととらえます。)
It uses vast computing power to scour the internet in the blink of an eye, looking for the expression in some text that exists alongside its paired translation.
それは、そのペアの翻訳と一緒に存在するいくつかのテキストでの表現を探して、瞬く間にインターネットを洗掘するために膨大なコンピューティングパワーを使用しています。
(tomam: 惜しい。ちょっとわかりにくいですね。
それは、その表現がどこかのテキストにそれのペアの翻訳と一緒に存在するのを探して、瞬く間にインターネットを探し回るために膨大なコンピューティングパワーを使用しています。)
The corpus it can scan includes all the paper put out since 1957 by the EU in two dozen languages, everything the UN and its agencies have ever done in writing in six official languages, and huge amounts of other material, from the records of international tribunals to company reports and all the articles and books in bilingual form that have been put up on the web by individuals, libraries, booksellers, authors and academic departments.
それはスキャンすることができるコーパスは、国際裁判所の記録から、2ダースの言語、国連とその機関がこれまでに6つの公式言語に書面で行っているすべてのもの、及び他の物質の巨大な量でEUが1957年以来出すすべての紙が含まれています会社のレポートや、個人、図書館、書店、著者や学術部門がWeb上に保存されているバイリンガルのフォーム内のすべての記事や書籍に。
(tomam:単語レベルではかなりいい線いっていますが、意味は取れないですね・・。
GTがスキャンすることができるコーパス(言語資料)には、EUが2ダースの言語で1957年以来に出した全ての書類、国連とその機関が6つの公式言語でこれまでに書面で出したすべてのもの、及び、他の巨大な量の資料、すなわち国際裁判所の記録から、個人、図書館、書店、著者や学術部門によって二ヶ国語の形式でWeb上に載せられた会社のレポートや全ての記事、書籍が含まれます。)
Drawing on the already established patterns of matches between these millions of paired documents, Google Translate uses statistical methods to pick out the most probable acceptable version of what's been submitted to it.
ペアの文書のこれらの数百万のマッチの既に確立されたパターンをもとに、Google翻訳ではそれに提出されていることの最も可能性の許容バージョンを取り出すために統計的手法を使用しています。
(tomam:これは何となく理解できます。
これらの数百万ものペアの文書間で既に確立された一致のパターンをもとに、Google翻訳は、それに提示されているものとして最も可能性の高い好ましい訳語を取り出すために、統計的手法を使用します。)
(中略。多言語間の翻訳について)
It's not because Google is based in California that English is the main pivot. If you use statistical methods to compute the most likely match between languages that have never been matched directly before, you must use the pivot that can provide matches with both target and source.
Googleはカリフォルニアで基づいているので、それは英語がメインピボットであるというわけではない。あなたが前に直接マッチされたことのない言語の間で最も可能性の一致を計算するために統計的手法を使用すると、ターゲットとソースの両方で試合を提供できるピボットを使用する必要があります。
(tomam:大体いいのですが…。
英語が主要なピボット(軸)であるのは、Googleがカリフォルニアに拠点があるからではありません。今までに直接組み合わされたことのない言語間で最も可能性のある一致を計算するために統計的手法を使用すると、ターゲットとソースの両方との組合せを提供できるピボットを使用しなければなりません。)
--------------------
こんなところで、Google翻訳がどういう仕組みで翻訳しているのか何となくわかったような気になりました。以下は省略します。
なるほどGoogleらしい方法です。それで文脈に合った訳語がでてくるのですね。
しかも58種類の言語間で58×57=3306通りの翻訳ができます。
そして、そのスピードがまたスゴイです。
もっともっと精度とスピードが上がれば、自動翻訳機も夢ではないかもしれません。
もう「ほんやくこんにゃく」も要らないですかね。
