Chat GPTなどの生成AIの発展は目覚ましいですが、その音声ベースの他言語翻訳への応用と今後のさらなる発展が期待されています。

生成AIは、大規模言語モデル(LLM:Large Language Models)という技術をベースにしており、膨大な蓄積データを高速で分析処理することによって、(人からの)いろいろな質問に、AIが迅速に自由自在に回答するというのが大きな特徴ですが、そのためにGPU(Graphics Processing Unit)と呼ばれる大規模データ処理の半導体が大量に(並列に)使用されるため、エヌビデアをはじめとする半導体メーカーの存在感が増しています。

通常は、このような大規模データ処理は、主としてクラウド上(ネットで結ばれたデータセンター内)で行われますが、最近では、その処理を端末サイド(パソコンとかスマホとか)で行うエッジAI技術の発展も期待されています。これにより、例えば、youtubeなどの多言語動画コンテンツが、ほぼリアルタイムで望む言語に翻訳されて利用できるようになるということです。

 

 

 

 

 

 

ということは、近い将来、Zoomなどのリモート会議でも、いろいろな国の人が自国語で参加して、それがそのまま(自分の望む言語に)多言語翻訳されて、言語の壁を越えて自由に会議が行えるようになるという期待が膨らみます。さらに、最近の生成AIを活用した音声合成技術では、ほぼリアルタイムで、いろいろな人の声を(その人の声の特徴をキープしながら)どの言語にでも合成できることになりそうで、そうなると、本当に世界の人が普通にテレビ会議をしながら交流を深めるという時代が訪れそうです。

FM TANABEとしても、かねてより、簡単な端末(できれば、手持ちのスマホ)をFMラジオの近くに置いておくだけで、ラジオから流れる日本語の放送内容を自分の望む言語に翻訳(音声翻訳がベストですが、テキスト翻訳でもOK)されてほぼリアルタイムで表示されるサービスの実現を待ち望んでいます。

 



生成AIの発展で、このようなサービスの実現はすぐそこまできているように思いますが、これにより、最近、田辺エリアを中心に急拡大している海外からの来訪者が、言語の壁を気にせずに、町の生情報を得たり、非常災害時の避難情報などを迅速に入手できるようになることを期待します!