こんにちは!半田貞治郎です。
生成AIの最新版「GPT-4o」が、人間の声を超える音声会話機能を獲得した。デモ動画では、ユーザーの要求に応じて異なるキャラクターの声を生成し、プロの役者さながらの演技を見せた。
## 驚異の応答スピードと表現力
GPT-4oは、テキスト・音声・画像・映像を組み合わせて活用できるマルチモーダル対応。音声会話では、最短232ミリ秒の応答時間を実現し、声のトーン、抑揚、スピード、感情表現など、人間を超える表現力を発揮する。
## キャラクターに変身して演技
デモでは、物語の執筆者が「GPT-4o」に洞窟の古き王のような雄大なライオンの声を指示すると、まるでプロの役者のように演じ分けた。「そこにいるのは誰だ?」という問いかけには、キャラクターになりきった声で応答した。
## 視覚機能付きでも提供予定
OpenAIによると、数週間以内にユーザー向けに視覚機能付きで提供される予定だ。画像、動画に続き、音声でも「人間かAIか」を見分けがつかなくなる時代が到来しつつある。
「GPT-4o」の新たなボイスモードに衝撃走る、異なるキャラクターの声で演技が可能に(窓の杜) - Yahoo!ニュース https://news.yahoo.co.jp/articles/8a1d47d2c67d30a8fee1a2eeed23b073833c3e86