articleニュース
2026.05.10
Autais 編集部
OpenAI、GPT-5 クラスの音声モデル「GPT-Realtime-2」などを API 提供開始
OpenAI が GPT-5 クラスの音声 API モデル「GPT-Realtime-2」を含む3モデルを Realtime API で提供開始。128K コンテキスト対応、Big Bench Audio で前世代比15.2%向上。翻訳・リアルタイム文字起こしに特化したバリアントも追加。
OpenAI、GPT-5 クラスの音声モデル「GPT-Realtime-2」などを API 提供開始
概要
OpenAI は2026年5月7日、Realtime API において3種類の新しい音声 AI モデルの提供を開始したと発表した。主力モデル「GPT-Realtime-2」は GPT-5 クラスの言語理解能力を持ち、128K コンテキストウィンドウに対応。音声 AI のベンチマーク「Big Bench Audio」では前世代比15.2%の性能向上を達成したとされる。音声翻訳に特化した「GPT-Realtime-Translate」、リアルタイム文字起こしに特化した「GPT-Realtime-Whisper」も同時提供。不動産 Zillow は GPT-Realtime-2 の採用でコール成功率が26ポイント向上したと報告している。
※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。
事実のポイント
3つの新音声 API モデル
| モデル名 |
特徴 |
| GPT-Realtime-2 |
GPT-5 クラス / 128K コンテキスト / Big Bench Audio +15.2% |
| GPT-Realtime-Translate |
リアルタイム音声翻訳 / 70言語→13言語への翻訳に対応 |
| GPT-Realtime-Whisper |
リアルタイム音声文字起こし(ライブ転写) |
価格(GPT-Realtime-2)
- 入力: $32 / 100万トークン
- 出力: $64 / 100万トークン
採用事例
- Zillow(不動産プラットフォーム): GPT-Realtime-2 の採用によりコールセンターの通話成功率が26ポイント向上
用語・背景の補足
Realtime APIとは、OpenAI が提供する音声入出力に特化した API。テキストを介さず音声→音声でリアルタイムにモデルと会話するアプリケーション開発に使用される。コールセンター自動化・音声アシスタント・通訳支援などへの応用が主な用途。
Big Bench Audioは音声 AI の総合的な理解・推論能力を評価するベンチマーク。音声認識精度だけでなく、音声から文脈・意図・感情を理解する能力も評価対象となる。
128K コンテキストウィンドウは、会話の長期履歴や大量のリファレンス情報をモデルに渡せる容量の指標。長時間の通話や複雑な業務フローに対応できる。
注意点
- 価格は API 利用時のもの。ChatGPT アプリ上の音声機能とは異なる
- GPT-Realtime-Translate の対応言語ペア(70言語→13言語)の詳細は公式ドキュメントを参照のこと
- Zillow の事例効果は同社固有の条件・業務環境に依存する
出典
編集部見解
(追記予定)
info
公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。
OpenAI、GPT-5 クラスの音声モデル「GPT-Realtime-2」などを API 提供開始
概要
OpenAI は2026年5月7日、Realtime API において3種類の新しい音声 AI モデルの提供を開始したと発表した。主力モデル「GPT-Realtime-2」は GPT-5 クラスの言語理解能力を持ち、128K コンテキストウィンドウに対応。音声 AI のベンチマーク「Big Bench Audio」では前世代比15.2%の性能向上を達成したとされる。音声翻訳に特化した「GPT-Realtime-Translate」、リアルタイム文字起こしに特化した「GPT-Realtime-Whisper」も同時提供。不動産 Zillow は GPT-Realtime-2 の採用でコール成功率が26ポイント向上したと報告している。
※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。
事実のポイント
3つの新音声 API モデル
| モデル名 |
特徴 |
| GPT-Realtime-2 |
GPT-5 クラス / 128K コンテキスト / Big Bench Audio +15.2% |
| GPT-Realtime-Translate |
リアルタイム音声翻訳 / 70言語→13言語への翻訳に対応 |
| GPT-Realtime-Whisper |
リアルタイム音声文字起こし(ライブ転写) |
価格(GPT-Realtime-2)
- 入力: $32 / 100万トークン
- 出力: $64 / 100万トークン
採用事例
- Zillow(不動産プラットフォーム): GPT-Realtime-2 の採用によりコールセンターの通話成功率が26ポイント向上
用語・背景の補足
Realtime APIとは、OpenAI が提供する音声入出力に特化した API。テキストを介さず音声→音声でリアルタイムにモデルと会話するアプリケーション開発に使用される。コールセンター自動化・音声アシスタント・通訳支援などへの応用が主な用途。
Big Bench Audioは音声 AI の総合的な理解・推論能力を評価するベンチマーク。音声認識精度だけでなく、音声から文脈・意図・感情を理解する能力も評価対象となる。
128K コンテキストウィンドウは、会話の長期履歴や大量のリファレンス情報をモデルに渡せる容量の指標。長時間の通話や複雑な業務フローに対応できる。
注意点
- 価格は API 利用時のもの。ChatGPT アプリ上の音声機能とは異なる
- GPT-Realtime-Translate の対応言語ペア(70言語→13言語)の詳細は公式ドキュメントを参照のこと
- Zillow の事例効果は同社固有の条件・業務環境に依存する
出典
編集部見解
(追記予定)