最近の機械翻訳の動向 | 最適性理論(音のストリーム)で英語を覚える

最適性理論(音のストリーム)で英語を覚える

  音声英語、つまり英会話、リスニング、発音に関して音のストリーム・ベースで学習するサイトです。

機械翻訳には、大きく分けて2種類があります。構文解析や文型パターンを基底とするルールベース型機械翻訳(RBMT)と、コーパスデータから類似箇所 を学習して適用させるデータ主導型機械翻訳です。


文法解析型は、1950年代に米国ジョージタウン大学とIBMによる共同開発で始まりました。ロシア語から英語への翻訳という軍事色の強いものでありました。250単語と6つの構文規則を記憶した程度のシステムでありましたが、コンピューターに対するナイーブで楽観的な期待とともに、世界中に広がりました。


1970年代には、欧州でSYSTRANシステムが商用化に成功しました。詳細な構文解析能力を搭載し、辞書機能も充実させたルール ベース型の機械翻訳がやっと本格化しました。


日本でも1980年代になると、京都大学の長尾教授らが提唱した用例ベース方式の機械翻訳が出現しました。それまでのルールベース型に対して、こちらはコーパスデー タから類似する部分を学習し、そのアルゴリズムを適用するデータ主導型の機械翻訳でした。


1984年には富士通がATLAS Iを発売するなど国内でも商用化が開始しました。しかし、まだ高額であり一般に普及するまでには至らなかった。それに、コストパフォーマンスの点からも、この 当時の機械翻訳の精度は満足できるものではなく、機械翻訳は「使えない」という雰囲気が強まったのもこの頃です。


1990年に入ると、インターネットが普及したことでそれまでの悲観的な状況とは別に、機械翻訳の一般需要が急速に高まりました。手頃な価格で購入できる機 械翻訳ソフトが出回り始め、再び、機械翻訳ブームが訪れましたが、内部構造的には80年代から開発されていたものと大差はなく、訳出精度が大 きく向上しませんでした。


2000年代になると、この状況に変化が現われました。後発のデータ主導型機械翻訳は、ルールベース型と比べてもアルゴリズムの構築が容易であるとい う利点と、コーパスさえあればそれなりの精度が出るというメリットがあったからです。しかし、逆に言えば、コーパスが無ければ役に立たないということであり、また 大量のコーパスを構築する手間がネックとなっていました。


しかし、インターネットの普及でコーパス集取が容易になると、データ主導型機械翻訳の精度が向上し始 めたのだ。また、開発者の直感に基づいてヒューリスティックに行わなわれていた構文パターンの計算も、コーパス量が増えたことにより、確立・統計的に算出 することが可能になりました。ここに、それまでの発想とは異色を放つ、いわゆる統計的機械翻訳(SMT)が台頭したのです。


統計的機械翻訳は、人間が翻訳したコーパスに基づいているため、訳出が自然になるという利点があります。統計的機械翻訳を採用するGoogle翻訳が 2006年の機械翻訳コンペティションで優勝をするなど、今まさに注目されるシステムです。


ルールベース型の訳出精度が頭打ちになっていた最中、コーパスと統計という武器を手に入れた統計的機械翻 訳は、品質向上の打開策として期待されています。