こんにちは!山崎光春です。

Googleは、年次開発者会議「Google I/O」の前日、ソーシャルメディア「X」で予告動画を公開し、新AIモデル「Gemini」の画期的な機能を披露した。[1][2]

動画では、スマートフォンのカメラをGoogle I/Oのステージにかざし、「ここで何が起こっていると思う?」と問いかける。Geminiはステージの様子を正しく認識し、「人々が大きなイベント、おそらく会議かプレゼンテーションの準備をしているようです」と答える。さらに自ら「特に目を引くものはありますか?」と質問し、ステージの大きな文字「I」「O」を見せると、「Google I/O」という開発者会議を示していると特定した。[1]

このように、Geminiは視覚情報と会話を通じて状況を理解し、より有益な回答を提供できる。rabbitが4月に披露した同様の機能を上回る可能性がある。[1]

一方、OpenAIも13日のイベントで、「ChatGPT」に視覚認識や音声対話機能を追加した新AIモデル「GPT-4o」を発表した。デモでは、AIがカメラ映像から手書きの数式や表情を認識し、ユーザーとの会話を通じて正しく理解する様子が披露された。[1]

Googleの動画公開は、OpenAIのイベントの直前に行われたことから、今週のGoogle I/Oでさらなる発表が予想される。両社の新AIモデルを巡る競争が激しさを増している。[1]

Citations:
[1] https://cloud.google.com/blog/ja/products/ai-machine-learning/google-cloud-at-io-2023
[2] https://japan.cnet.com/article/35218461/
[3] https://wired.jp/article/google-io-2023-everything-announced/
[4] https://io.google/2023/intl/ja/
[5] https://www.itmedia.co.jp/news/articles/2305/11/news113.html