chatGPT-4oのデモ動画で

 

 

 

じゃんけんをしているデモがあるが、

これは長年研究していてできなかったものです。

 

AIは音声認識から、発話までタイムラグがあって、

その間に人間が発話すると、シーケンスがおかしくなることがあって、

なかなか苦労します。

そのため、発話ボタンを押してから人間が発話したりして、

人間がタイミングを合わせる処理をします。

 

今のchatGPT-4oのアンドロイドアプリではカメラとか、そのような自由な発話はできないため、

こちらでは再現不可能ですが、デモのような3人での発話が自由に行え、しかもじゃんけんの動作を

認識できるというのは、驚くべき性能!

 

早くアプリでできるようになって、実物を実感してみたいものです。