驚くべき音声対話 | forevisionのブログ

ホームピグアメブロ

芸能人ブログ人気ブログ

驚くべき音声対話

chatGPT-4oのデモ動画で

Rock, Paper, Scissors with GPT-4oSay hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time.Learn more here: https://www.openai.com/index/hello-...

じゃんけんをしているデモがあるが、

これは長年研究していてできなかったものです。

AIは音声認識から、発話までタイムラグがあって、

その間に人間が発話すると、シーケンスがおかしくなることがあって、

なかなか苦労します。

そのため、発話ボタンを押してから人間が発話したりして、

人間がタイミングを合わせる処理をします。

今のchatGPT-4oのアンドロイドアプリではカメラとか、そのような自由な発話はできないため、

こちらでは再現不可能ですが、デモのような3人での発話が自由に行え、しかもじゃんけんの動作を

認識できるというのは、驚くべき性能！

早くアプリでできるようになって、実物を実感してみたいものです。