【速報】OpenAIが革新的なマルチモーダルモデル「GPT-4o」を発表！

OpenAIは2024年5月13日に行われたライブ配信イベントにおいて、GPT-4oを発表しました！
同社のCTOであるMira Muratiが登壇し、GPT-4oがテキスト、音声、画像を同時に処理できるマルチモーダルモデルであることを強調しました。GPT-4oは音声での応答が高速で、英語以外の言語でもGPT-4 Turboより大幅に改善されていると説明しました。また、ChatGPTの無料ユーザーにもGPT-4oの機能を提供し、有料ユーザーはメッセージ上限が5倍になると発表しました。APIでの提供も開始され、GPT-4 Turboより2倍高速、価格は50%安価になるとのことです。ライブデモでは数式の音声指導やコード分析、多言語通訳などGPT-4oの多彩な能力が披露されました。OpenAIはGPT-4oを、より自然な人間とコンピュータの対話を実現する画期的なモデルとして発表したと言えます。

以下、発表されたGPT-4o の詳細です。

1. GPT-4oとは
・GPT-4oは、テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力を生成できる、人間とコンピュータのより自然な対話を目指したモデルである。
・音声入力に対して平均232ミリ秒で応答でき、人間の会話における応答時間とほぼ同等である。
・英語のテキストおよびコードでは「GPT-4 Turbo」と同等の性能を示し、英語以外の言語のテキストでは大幅に改善されている。
・視覚と音声の理解において、既存のモデルと比較して優れている。

2. モデルの機能
・以前は、音声モードで「ChatGPT」と会話するために3つの個別のモデルのパイプラインを使用していたが、GPT-4oではテキスト、ビジョン、オーディオにわたって単一の新しいモデルをエンドツーエンドで学習した。

・GPT-4oは、テキスト、画像、音声の入力と出力を組み合わせた最初のモデルであり、その能力と制限についてはまだ十分に解明されていない。

3. モデルの評価
・従来のベンチマークで測定したところ、GPT-4oはテキスト、推論、コーディングに関してGPT-4 Turboレベルの性能を達成し、多言語、オーディオ、ビジョン機能に関して最高水準を達成した。

・20の言語について、新しいトークナイザーの圧縮を代表するものとして選択された。

4. モデルの安全性と制限事項
・GPT-4oには、学習データのフィルタリングや学習後のモデルの動作の調整などの技術を通じて、モダリティ全体に安全性が組み込まれている。

・音声出力にガードレールを提供する新しい安全システムも作成された。

・サイバーセキュリティ、CBRN、説得、モデルの自律性に関する評価では、GPT-4oは中リスク以上のスコアを獲得していない。

・GPT-4oのオーディオモダリティには新たなリスクがあるため、テキストと画像の入力とテキスト出力のみを一般公開し、他のモダリティについては今後数週間から数か月かけて安全性に取り組む予定である。

5. モデルの入手可能性
・GPT-4oのテキストおよび画像機能は、ChatGPTで展開され始めている。

・無料ユーザーもGPT-4oの機能にアクセスでき、有料ユーザーはメッセージ制限が最大5倍になる。

・今後数週間以内に、ChatGPT Plus内でα版のGPT-4oを使用した音声モードの新バージョンを公開する予定である