OpenAI、GPT-5級推論の音声AI「GPT-Realtime-2」など3モデルをリアルタイムAPIで一斉公開

OpenAIは2026年5月7日、Realtime APIに向けてGPT-Realtime-2・GPT-Realtime-Translate・GPT-Realtime-Whisperの3モデルを同時発表。GPT-Realtime-2はGPT-5相当の推論能力を持ち、128Kコンテキストに対応する音声対話モデル。

概要

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

OpenAIは2026年5月7日、Realtime APIを通じた音声AI基盤を大幅に刷新し、新たに3種類のモデルを一斉に公開した。中心となる「GPT-Realtime-2」はGPT-5相当の推論能力を音声対話に実装したモデルで、128,000トークンのコンテキストウィンドウに対応する。あわせて、リアルタイム翻訳に特化した「GPT-Realtime-Translate」と、音声文字起こしの「GPT-Realtime-Whisper」も公開されており、3モデルを業務用途に応じて組み合わせることが可能になった。

事実のポイント

GPT-Realtime-2の主な仕様: コンテキストウィンドウ128Kトークン（前世代の32Kから4倍に拡張）。Big Bench Audioベンチマークで96.6%の精度を達成し、前世代比15.2ポイント向上
GPT-Realtime-Translate: リアルタイム多言語翻訳に特化したモデル。料金は1分あたり約0.034ドルと、従来の通訳コストに比べ大幅に低廉
GPT-Realtime-Whisper: ストリーミング対応の音声文字起こしモデル。リアルタイムおよびバッチ処理の両エンドポイント、多言語対応、話者分離（ダイアライゼーション）、タイムスタンプ付与に対応
料金体系: GPT-Realtime-2は入力トークン100万件あたり32ドル・出力100万件あたり64ドル
対象ユーザー: Realtime API経由での利用。企業・開発者向けに即時提供開始

用語・背景の補足

Realtime API: OpenAIが提供する、テキストと音声をリアルタイムで処理するためのAPI。カスタマーサポートbotや音声エージェントなどの構築に活用される
コンテキストウィンドウ（Context Window）: モデルが一度に処理できるトークン（文字・単語の単位）の最大量。128Kとは日本語で数十万文字相当を指し、長い会話や複雑な業務フローにも対応できる
話者分離（ダイアライゼーション）: 複数人が話す音声データから、誰がどこで発話したかを分離・識別する技術。会議の議事録作成などに有用

注意点

料金は2026年5月時点のものであり、変更される可能性がある
Big Bench Audioのスコアは特定の評価環境での数値であり、実務利用での精度は用途・言語・音声品質によって異なる
多言語対応の具体的な言語・精度はOpenAI公式ドキュメントを参照のこと

編集部見解

（追記予定）

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

概要

事実のポイント

用語・背景の補足

注意点

編集部見解

出典

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査

OpenAI、GPT-5級推論の音声AI「GPT-Realtime-2」など3モデルをリアルタイムAPIで一斉公開

概要

事実のポイント

用語・背景の補足

注意点

編集部見解

出典

英国「Regulating for Growth Bill」：AIサンドボックス導入と成長優先の新規制枠組み

スタンダードチャータード、AI活用で7800人規模のバックオフィス削減計画を発表

OpenAI と Dell が Codex のオンプレミス・ハイブリッド展開で提携：企業内データ基盤との直接統合へ

AI 導入の最初の一手｜統合プラットフォームを基盤に AI とシステムを使い分けて小さく始める

「ある業務コストが 1/100 になる競合」と戦えない時代へ｜AI 導入が選択肢でなく前提条件になる構造

組織への AI 導入が進まない 4 つの構造課題｜担当者が自分ごと化しない理由と「現状整理＋一括処理」の現実解

5つのご相談入口

無料オンライン相談

コンサルティング

セミナー

講演

調査