Geminiとは？Googleがリリースした生成AIの性能や種類、どこで使えるかを解説！

「Gemini」は、Googleの最新のマルチモーダル生成AIモデルで、テキストだけでなく音声、画像、動画、コードを理解し、それらを組み合わせて操作することができます。

「Gemini」の読み方は、「ジェミニ」と読まれることが多いですが、より英語に近い読み方として「ジェミナイ」よ読むこともあり、どちらも正しいです。

マルチモーダル生成AIとは
マルチモーダルAIは、テキスト、音声、画像、動画など、2つ以上の異なるデータの種類を理解して、組み合わせて操作できる生成AIモデルです。
マルチモーダル生成AIによって、例えば画像を認識してテキストを生成したり、テキストから音声を生成したりすることが可能になります。
OpenAIの「ChatGPT Plus」のAll Toolsもマルチモーダル生成AIの一つです。