chatGPT-4oのデモ動画で
じゃんけんをしているデモがあるが、
これは長年研究していてできなかったものです。
AIは音声認識から、発話までタイムラグがあって、
その間に人間が発話すると、シーケンスがおかしくなることがあって、
なかなか苦労します。
そのため、発話ボタンを押してから人間が発話したりして、
人間がタイミングを合わせる処理をします。
今のchatGPT-4oのアンドロイドアプリではカメラとか、そのような自由な発話はできないため、
こちらでは再現不可能ですが、デモのような3人での発話が自由に行え、しかもじゃんけんの動作を
認識できるというのは、驚くべき性能!
早くアプリでできるようになって、実物を実感してみたいものです。