2026年2月、OpenAI は「Codex」ファミリーに属する、密接に関連しながらも戦略的に異なる2つのモデルを発表しました。GPT-5.3-Codex(高性能なエージェント型コーディングモデル)と、GPT-5.3-Codex-Spark(インタラクティブなコーディングに最適化された超低レイテンシの小型モデル)です。
この2モデルは、ソフトウェアエンジニアリングのワークフローにおいて「深く考えること」と「素早く実行すること」の両方を支援するという、OpenAIの二重戦略を体現しています。すなわち、コーディング知能とツール駆動型エージェント能力の限界を押し広げるモデルと、開発者向けUIでのリアルタイムな対話性を最優先するモデルの組み合わせです。
現在、CometAPIは GPT-5.3 Codex と統合されており、API経由で利用できます。CometAPIの割引制度とサービス理念は、多くのユーザーにとって魅力的な選択肢となるでしょう。
GPT-5.3-Codex と GPT-5.3-Codex-Spark とは?
GPT-5.3-Codex
GPT-5.3-Codexは、OpenAIが提供する最新の「フロンティア」コーディングエージェントです。高度なコーディング能力と汎用推論能力を統合しており、長期的なエージェントタスク向けに設計されています。
具体的には:
-
調査・リサーチ
-
ツールの利用
-
ターミナルコマンドの実行
-
多トークンにわたる反復処理
-
マルチステップのソフトウェアプロジェクト管理
といった作業を想定しています。
公開レポートによれば、SWE-Bench ProやTerminal-Bench 2.0などの多言語エンジニアリングベンチマークで最先端の結果を記録しています。また、デバッグ、デプロイ、自身の開発ワークフロー支援にも活用可能とされています。
GPT-5.3-Codex-Spark
GPT-5.3-Codex-Sparkは、レイテンシ最適化された小型バリアントで、リアルタイムな対話型コーディング体験を目的としています。
SparkはCerebrasのウェハースケールハードウェア上で動作するよう共同開発されており、以下を実現しています:
-
毎秒1000トークン以上のスループット
-
初期リリースで128kトークンのコンテキストウィンドウ
Sparkは補完的なモデルとして位置付けられており、インライン編集、ボイラープレート生成、簡易リファクタリング、短いタスク処理に非常に高速に対応します。ただし、標準Codexに比べると推論の深さは意図的に抑えられています。
なぜ2つのモデルが必要なのか?
これは実用的な製品上のトレードオフを反映しています。
チームには次の両方が求められます:
-
巨大な問題空間を計画・推論できる高性能エージェント
-
開発者のフローを止めない即時応答型コラボレーター
この2モデルは置き換え関係ではなく、ハイブリッド運用が前提とされています。
アーキテクチャとデプロイ
ハードウェア
-
GPT-5.3-Codex:主にNVIDIA GB200 NVL72 GPU上で設計・学習・提供
-
GPT-5.3-Codex-Spark:Cerebras WSE-3上で動作
Sparkは小型化・蒸留によりWSE-3のSRAM要件に適合させ、高スループットを実現しています。
コンテキストウィンドウ
-
GPT-5.3-Codex:400,000トークン
-
GPT-5.3-Codex-Spark:128kトークン
標準モデルは長期プロジェクトや多数ファイル横断推論に特に強みがあります。
ベンチマークとレイテンシ
GPT-5.3-Codex(標準)
-
Terminal-Bench 2.0:77.3%
-
SWE-Bench Pro:56.8%
-
OSWorld:64.7%
-
GDPval wins/ties:70.9%
マルチ言語エージェント型エンジニアリングタスクで新たなリーダーと位置付けられています。
GPT-5.3-Codex-Spark
-
1000トークン/秒以上
-
Terminal-Bench推定:約58.4%
速度と正確性のトレードオフが明確に現れています。
なぜSparkはこれほど速いのか?
ハードウェア要因
Cerebras WSE-3は大容量オンチップバッファと広帯域メモリにより、メモリ移動レイテンシを大幅に削減します。
蒸留のコスト
蒸留・プルーニングにより:
-
複雑な多段推論で性能低下
-
微妙なロジック・セキュリティエラーの確率増加
-
内部思考トークンの減少
ただし、限定的編集や高速補完では優れた性能を発揮します。
開発チームへの示唆
Sparkを使うべき場面
-
インライン補完
-
リアルタイムリファクタリング
-
CIクイックチェック
-
ユニットテスト雛形生成
-
文法修正
標準Codexを使うべき場面
-
アーキテクチャ設計
-
複雑バグ解析
-
マルチファイル推論
-
セキュリティチェック
結論
単一の勝者は存在しません。
-
GPT-5.3-Codex:正確性・長期推論・ツール統合重視
-
GPT-5.3-Codex-Spark:低レイテンシ・開発フロー維持重視
最適戦略は統合運用です。Codexを「設計者」、Sparkを「実行者」として組み合わせることで、生産性向上が期待できます。