ちょっと前にOpenAIの新しい「GPT-4o」のデモをYouTubeで観たのだが、今までのAIの弱点だった応答速度が完璧に改善されていて、ほとんど人間同士の会話みたいだった。(英語版のデモが公開されている)


GPT-4oの特徴は、テキストだけでなく画像と音も認識する、オムニでマルチモーダルな仕組みになっているらしい。

以前も会話の音声データは認識していたが、あくまで音声をいったんテキストに変換してから認識していた。


それが新型では声の大きさや調子なども含めた音そのものも認識するという。

声の調子に含めた驚きとか怒りとか喜びみたいな感情表現も分かるらしい。


感情表現の読み取りができるだけではなくて、AIの方が面白いことを言ったりもできる。

今のところまだそんなに爆発的に面白い感じはしなかったが、彼らの学習速度を考えるとそう遠くないうちにM-1準決勝に行けるくらいの面白さを獲得するのではないか、という気もする。


数年前から、作曲AIがモーツァルトやシューベルトに匹敵するような名曲を作ったり、画像生成AIがどこからどうみてもバンクシーな絵を描いたりする世の中に既になっている。

ここに来て言語系のAIが人間と区別がつかないくらいのレベルに達する感じになって来て、アナウンサーとかナレーションとかもそのうちAIに置き換わって行くのかもしれない。


24時間生放送のウェザーニュースのキャスターも、メンバーに1人くらいAIが入る未来も近いかもしれない。

AIはお年頃になったからといって結婚もしないし、不倫もしない。

喋っていて慌てて噛むこともない。

安定感的に人間はAIに敵わない。


逆に言うと、人間のアナウンサー等は噛んだり失言したり不倫したりする不完全性こそが魅力であるのかもしれない。

妙に惚れっぽかったり何かとトラブルを起こすような人間の不完全が、無駄でなくむしろ有用になる日がもうすぐ来る、ような気がした。

 

 

 

同じネタで投稿する

 

他の投稿ネタを確認する