OpenAI、リアルタイムコーディング向け超高速モデル「GPT-5.3-Codex-Spark」を発表

公開日:2026年02月13日

属人化の解消

OpenAIは、リアルタイムでのコーディング作業に特化した新モデル「GPT-5.3-Codex-Spark」のリサーチプレビューを開始しました。Cerebras社とのパートナーシップで実現したこのモデルは、超低遅延ハードウェア上で秒間1000トークン以上の速度を実現し、開発者とのインタラクティブな作業を可能にします。

この記事をシェア

ポイント

1
リアルタイムコーディングに特化した初のモデルで、秒間1000トークン以上の超高速処理を実現
2
Cerebras社の専用AIアクセラレーターを採用し、エンドツーエンドのレイテンシーを大幅改善
3
ChatGPT Proユーザー向けにリサーチプレビューを開始し、開発者のフィードバックを収集

OpenAIは、Cerebras社との提携を発表した1月に続く最初のマイルストーンとして、「GPT-5.3-Codex-Spark」のリサーチプレビューを開始しました。このモデルは、既存のGPT-5.3-Codexの小型版として開発され、コード編集やロジックの再構築、インターフェースの改良といった作業をリアルタイムで行えることが特徴です。

高速性と実用性の両立

Codex-Sparkは、インテリジェンスと同様に遅延時間が重要なインタラクティブ作業に最適化されています。開発者はモデルとリアルタイムで協業し、作業を中断または方向転換しながら、ほぼ即時の応答で迅速に反復作業を行うことが可能です。速度にチューニングされているため、デフォルトの作業スタイルは軽量に保たれており、最小限のターゲット編集を行い、指示がない限り自動的にテストを実行しません。

ベンチマークテストでは、エージェント型ソフトウェアエンジニアリング能力を評価するSWE-Bench ProとTerminal-Bench 2.0において、GPT-5.3-Codex-SparkはGPT-5.3-Codexと比較してタスク完了時間を大幅に短縮しつつ、強力なパフォーマンスを示しています。

全モデルに波及するレイテンシー改善

Codex-Sparkの開発を通じて、モデルの速度だけでなく、要求から応答までの全パイプラインにおけるレイテンシー低減も重要であることが明らかになりました。OpenAIは、全モデルに恩恵をもたらすエンドツーエンドのレイテンシー改善を実施。永続的なWebSocket接続の導入とResponses API内の最適化により、クライアント/サーバー間の往復ごとのオーバーヘッドを80%、トークンごとのオーバーヘッドを30%、最初のトークン表示までの時間を50%削減することに成功しました。

Cerebras社の技術を活用

Codex-Sparkは、Cerebras社の専用AIアクセラレーター「Wafer Scale Engine 3」上で動作し、Codexにレイテンシー最優先の提供階層を追加します。OpenAIはCerebras社と提携し、既存の本番提供スタックにこの低遅延パスを統合。これにより、Codex全体でシームレスに動作し、将来のモデルサポートの基盤も整えました。Cerebras社のSean Lie CTO兼共同創業者は、このパートナーシップにより可能になる新しいインタラクションパターンやユースケースの発見に期待を示しています。

現在、Codex-Sparkは128kのコンテキストウィンドウを持つテキスト専用モデルとして提供されていますが、これは一連の超高速モデルファミリーの最初の一歩に過ぎません。開発者コミュニティとの協業を通じて高速モデルの活用領域を学びながら、より大規模なモデル、より長いコンテキスト長、マルチモーダル入力などの機能拡張を進めていく方針です。