articleニュース
OpenAI、GPT-5級推論の音声AI「GPT-Realtime-2」など3モデルをリアルタイムAPIで一斉公開
OpenAIは2026年5月7日、Realtime APIに向けてGPT-Realtime-2・GPT-Realtime-Translate・GPT-Realtime-Whisperの3モデルを同時発表。GPT-Realtime-2はGPT-5相当の推論能力を持ち、128Kコンテキストに対応する音声対話モデル。
概要
※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。
OpenAIは2026年5月7日、Realtime APIを通じた音声AI基盤を大幅に刷新し、新たに3種類のモデルを一斉に公開した。中心となる「GPT-Realtime-2」はGPT-5相当の推論能力を音声対話に実装したモデルで、128,000トークンのコンテキストウィンドウに対応する。あわせて、リアルタイム翻訳に特化した「GPT-Realtime-Translate」と、音声文字起こしの「GPT-Realtime-Whisper」も公開されており、3モデルを業務用途に応じて組み合わせることが可能になった。
事実のポイント
- GPT-Realtime-2の主な仕様: コンテキストウィンドウ128Kトークン(前世代の32Kから4倍に拡張)。Big Bench Audioベンチマークで96.6%の精度を達成し、前世代比15.2ポイント向上
- GPT-Realtime-Translate: リアルタイム多言語翻訳に特化したモデル。料金は1分あたり約0.034ドルと、従来の通訳コストに比べ大幅に低廉
- GPT-Realtime-Whisper: ストリーミング対応の音声文字起こしモデル。リアルタイムおよびバッチ処理の両エンドポイント、多言語対応、話者分離(ダイアライゼーション)、タイムスタンプ付与に対応
- 料金体系: GPT-Realtime-2は入力トークン100万件あたり32ドル・出力100万件あたり64ドル
- 対象ユーザー: Realtime API経由での利用。企業・開発者向けに即時提供開始
用語・背景の補足
- Realtime API: OpenAIが提供する、テキストと音声をリアルタイムで処理するためのAPI。カスタマーサポートbotや音声エージェントなどの構築に活用される
- コンテキストウィンドウ(Context Window): モデルが一度に処理できるトークン(文字・単語の単位)の最大量。128Kとは日本語で数十万文字相当を指し、長い会話や複雑な業務フローにも対応できる
- 話者分離(ダイアライゼーション): 複数人が話す音声データから、誰がどこで発話したかを分離・識別する技術。会議の議事録作成などに有用
注意点
- 料金は2026年5月時点のものであり、変更される可能性がある
- Big Bench Audioのスコアは特定の評価環境での数値であり、実務利用での精度は用途・言語・音声品質によって異なる
- 多言語対応の具体的な言語・精度はOpenAI公式ドキュメントを参照のこと
編集部見解
(追記予定)
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。