Open AIは13日、GPT-4o(フォーオー)をリリースした。テキストや音声、画像を組合せた入力や生成が可能となった。音声入力は、人間の会話の応答時間とほぼ同程度を実現した。

 

GPT-4oのoは、omniを意味し、全体や全方位を表す。テキスト、音声、画像を組合せて、任意の組合せで出力を生成するマルチモーダルなAIとのことである。

 

英語のテキストやコードは、GPT-4 Turboに匹敵するパフォーマンスをもち、日本語をはじめ50以上の言語に対応している。

 

ビジュアルと音声の理解が飛躍的に改良され、英語以外の言語で書かれたメニューの写真を撮り、GPT-4oに話しかけて翻訳し、そこから食べ物の歴史と重要性を学んだおすすめを得ることもできる。

 

機械と直接会話し、操作を行うSFの世界が現実になりつつある。Chat GPTの誕生から1年半でここまで進化したこと自体が驚きだが、これからが生成AIの本領発揮となるだろう。AIに支配されないためにも、使いこなすことが重要だ。

 

処理速度が飛躍的に向上し、費用は従来の半分近くになることから、政策リサーチの生成AIも、GPT-4oへの切り替えを検討しようと思っている。