
OpenAIが音声新モデル、GPT-Realtime-2などを発表。70以上の言語をリアルタイム翻訳
公開日:
OpenAIは2026年5月7日、リアルタイム音声API向けに3つの新モデルを発表しました。新たに追加されたのは、GPT‑5クラスの推論能力を持つ「GPT‑Realtime‑2」、70以上の入力言語を13言語へ同時通訳できる「GPT‑Realtime‑Translate」、発話と同時に文字起こしが可能な「GPT‑Realtime‑Whisper」です。音声がソフトウェア操作の中心となるなか、これらのモデルは開発者に、より知的で自然な音声体験を構築する手段を提供します。
ポイント
- 1GPT‑5クラスの推論で複雑な依頼にも自然応答
- 270以上の言語を13言語へリアルタイム翻訳
- 3発話と同時に文字起こしできるストリーミング認識
音声インタフェースの進化
OpenAIは、音声がソフトウェアを操作する最も自然な方法の一つになりつつあると指摘しています。運転中や移動中でも手を使わずに済み、多言語でのサポートも容易になるためです。今回の発表は、単なる一問一答を超え、推論・翻訳・文字起こし・ツール実行を会話の流れの中で実現することを目指しています。開発者は、音声から直接アクションにつなげる「Voice-to-action」、システムが状況に応じて音声ガイダンスを提供する「Systems-to-voice」、言語を超えた会話を可能にする「Voice-to-voice」という3つのパターンを組み合わせて、新しい音声アプリを構築できます。
GPT‑Realtime‑2の主な特長
GPT‑Realtime‑2は、応答前に「確認します」といった前置きを挿入できるプレアンブル機能を備えています。並列ツール呼び出しや、ツール実行中であることを発話で伝える仕組みにより、ユーザーを待たせずにタスクを進められます。エラー時には「現在問題が発生しています」と伝えて会話を維持し、128Kトークンまでの長い文脈を扱えるため、複雑なワークフローにも対応します。さらに、推論努力を5段階で調整可能で、単純なやり取りでは低遅延、複雑な依頼では高度な推論を適用できます。ZillowのAI責任者ジョシュ・ワイズバーグ氏は、厳しいテストで通話成功率が69%から95%に向上したと述べており、実運用での信頼性の高さが示されています。
リアルタイム翻訳の実力
GPT‑Realtime‑Translateは、話者が自然に話すペースを保ちながら、70以上の入力言語を13の出力言語に即時翻訳します。カスタマーサポートや越境商談、教育、イベント、メディアなど、グローバルな利用シーンを想定しています。ドイツテレコムは多言語音声対話のテストを進めており、Vimeoは製品紹介動画をリアルタイム翻訳するデモを公開しました。インドのBolnaAIの共同創業者プラティーク・サチャン氏は、ヒンディー語やタミル語などでの単語誤り率が他モデルより12.5%低く、自然な会話を維持できる低遅延性を評価しています。
低遅延の文字起こしで即時活用
GPT‑Realtime‑Whisperは、音声を話したそばからテキスト化するストリーミング文字起こしモデルです。会議の字幕や議事録の自動生成、音声エージェントの継続的な理解、カスタマーサポートや医療現場での即時フォローアップなどに役立ちます。発話と同時に文字情報が得られるため、ビジネスワークフローに音声データをそのまま組み込みやすくなります。
Q&A
Q. GPT‑Realtime‑2は従来の音声モデルと何が違いますか?
A. 推論能力が大幅に向上し、会話中にツールを呼び出したり、複数のタスクを並行処理したりできます。エラー時の対応や口調の調整も強化されています。
Q. リアルタイム翻訳モデルはどのような場面で使えますか?
A. 国際カスタマーサポートや多言語会議などで、参加者が自分の言語で話し、相手に翻訳された音声が即座に届くため、言語の壁を感じさせません。
Q. GPT‑Realtime‑Whisperは普通の文字起こしとどう違いますか?
A. 従来のように録音終了を待たず、話している最中にリアルタイムでテキスト化されるため、字幕表示や会議メモの即時反映に適しています。

O!Productニュース編集部からのコメント
GPT-Realtime-2で通話成功率が69%から95%に跳ね上がったのは実務インパクト大きいですね。コールセンターの音声対応、かなり実用的になりそうです。
引用元:OpenAI
この記事の著者
O!Productニュース編集部


関連ニュース

AI同時通訳「翻訳カモメ」、法人向け「Enterprise」を提供開始

CoeFont通訳、国際弁護士連盟セミナーで実運用。法律専門用語の多言語翻訳を支援

RWS、AI翻訳の新ソリューション「Language Weaver Pro」をCohereと共同でリリース

ロゼッタ、翻訳AI「T-4OO」にエージェンティックAIを搭載。修正必要率0.05%を実現

みずほ銀行、海外ビジネスマッチングプラットフォーム「MIZUHO BIG ADVANCE GLOBAL」を開始

TOPPAN、会話データを外部送信しない自動通訳ディスプレイ「UCDisplay® LIVE」を提供開始

音声認識の誤りをその場で修正できる多言語会議ツール「Troom」提供開始

TOPPAN、空間に浮かぶ翻訳ディスプレイ「UCDisplay® Air」を提供開始

ココペリ、日本とタイの中小企業向けビジネスマッチング「BIG ADVANCE GLOBAL」を開始




















