統計的機械翻訳システム | 最適性理論(音のストリーム)で英語を覚える

最適性理論(音のストリーム)で英語を覚える

  音声英語、つまり英会話、リスニング、発音に関して音のストリーム・ベースで学習するサイトです。

統計的機械翻訳は最近になり急速に発展してきた手法であり、Google 翻訳やLanguage Weaver等で採用されています。


翻訳方法は膨大な量の英語と日本語の対訳集を使い、ある単語または句に続く確率が最も高い単語または句を統計的に求めて、原文(英語)に対する訳文(日本語)を生成します。

その過程で、原文と訳文において英語と日本語の語順の違いを考慮した処理もしますが、それも統計的な手法で行います。


統計的の意味は数学、つまり統計学や確率論的に処理するものであり、原文や訳文の文法は不要です。つまり、文法構造がわからなくても翻訳できてしまうのです。文法をルールとして定め、ルールに従って構文解析を行なう従来のルールベース機械翻訳とは対照的な手法と言えます。


統計的機械翻訳では、膨大な量の英語と日本語の対訳集を基に、その対訳集中の全ての文章を単語や句といった短い単位に分け、ある文が出現する確率や、ある文が別の言語のある文に翻訳される確率を、予め計算によって求めておきます。


大切なのは2つの確率値の掛け算で表現されるということです。これら2つは、それぞれ翻訳モデルと言語モデルと呼ばれています。


つまり、「翻訳として原文と訳文が対応している度合い」と「日本語として自然な度合い」の掛け算の結果が最も高くなるものを、訳文として採用します。こらは実に理に適った考えです。


統計的機械翻訳の世界では、対訳集に相当するものをパラレル・コーパスと呼んでいます。また、翻訳モデルも言語モデルも、パラレル・コーパスから自動的に生成されますが、この処理のことを学習とかトレーニングと呼んでいます。そして、翻訳モデルと言語モデルを用いて訳文を生成する処理を行なうプログラムをデコーダーと言います。


これらの統計的機械翻訳の考えは人間の脳が翻訳している仕組みに非常に似ています。ルールベースの機械翻訳がうまく訳せなかったので、このような人間の翻訳に近いシステムが考えられました。