articleニュース

OpenAI、GPT-5 クラスの音声モデル「GPT-Realtime-2」などを API 提供開始

-5 クラスの音声 「GPT-Realtime-2」を含む3モデルを Realtime API で提供開始。128K コンテキスト対応、Big Bench Audio で前世代比15.2%向上。翻訳・リアルタイムに特化したバリアントも追加。

OpenAI、GPT-5 クラスの音声モデル「GPT-Realtime-2」などを API 提供開始

概要

は2026年5月7日、Realtime において3種類の新しい音声 AI の提供を開始したと発表した。主力モデル「-Realtime-2」は GPT-5 クラスの言語理解能力を持ち、128K に対応。音声 AI の「Big Bench Audio」では前世代比15.2%の性能向上を達成したとされる。音声翻訳に特化した「GPT-Realtime-Translate」、リアルタイムに特化した「GPT-Realtime-Whisper」も同時提供。不動産 Zillow は GPT-Realtime-2 の採用でコール成功率が26ポイント向上したと報告している。

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

事実のポイント

3つの新音声 API モデル

モデル名 特徴
GPT-Realtime-2 GPT-5 クラス / 128K コンテキスト / Big Bench Audio +15.2%
GPT-Realtime-Translate リアルタイム音声翻訳 / 70言語→13言語への翻訳に対応
GPT-Realtime-Whisper リアルタイム音声文字起こし(ライブ転写)

価格(GPT-Realtime-2)

  • 入力: $32 / 100万
  • 出力: $64 / 100万トークン

採用事例

  • Zillow(不動産プラットフォーム): GPT-Realtime-2 の採用によりコールセンターの通話成功率が26ポイント向上

用語・背景の補足

Realtime APIとは、OpenAI が提供する音声入出力に特化した API。テキストを介さず音声→音声でリアルタイムにモデルと会話するアプリケーション開発に使用される。コールセンター・音声アシスタント・通訳支援などへの応用が主な用途。

Big Bench Audioは音声 AI の総合的な理解・能力を評価するベンチマーク。音声認識精度だけでなく、音声から文脈・意図・感情を理解する能力も評価対象となる。

128K コンテキストウィンドウは、会話の長期履歴や大量のリファレンス情報をモデルに渡せる容量の指標。長時間の通話や複雑な業務フローに対応できる。

注意点

  • 価格は API 利用時のもの。 アプリ上の音声機能とは異なる
  • GPT-Realtime-Translate の対応言語ペア(70言語→13言語)の詳細は公式ドキュメントを参照のこと
  • Zillow の事例効果は同社固有の条件・業務環境に依存する

出典

編集部見解

(追記予定)

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

OpenAI、GPT-5 クラスの音声モデル「GPT-Realtime-2」などを API 提供開始

概要

は2026年5月7日、Realtime において3種類の新しい音声 AI の提供を開始したと発表した。主力モデル「-Realtime-2」は GPT-5 クラスの言語理解能力を持ち、128K に対応。音声 AI の「Big Bench Audio」では前世代比15.2%の性能向上を達成したとされる。音声翻訳に特化した「GPT-Realtime-Translate」、リアルタイムに特化した「GPT-Realtime-Whisper」も同時提供。不動産 Zillow は GPT-Realtime-2 の採用でコール成功率が26ポイント向上したと報告している。

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

事実のポイント

3つの新音声 API モデル

モデル名 特徴
GPT-Realtime-2 GPT-5 クラス / 128K コンテキスト / Big Bench Audio +15.2%
GPT-Realtime-Translate リアルタイム音声翻訳 / 70言語→13言語への翻訳に対応
GPT-Realtime-Whisper リアルタイム音声文字起こし(ライブ転写)

価格(GPT-Realtime-2)

  • 入力: $32 / 100万
  • 出力: $64 / 100万トークン

採用事例

  • Zillow(不動産プラットフォーム): GPT-Realtime-2 の採用によりコールセンターの通話成功率が26ポイント向上

用語・背景の補足

Realtime APIとは、OpenAI が提供する音声入出力に特化した API。テキストを介さず音声→音声でリアルタイムにモデルと会話するアプリケーション開発に使用される。コールセンター・音声アシスタント・通訳支援などへの応用が主な用途。

Big Bench Audioは音声 AI の総合的な理解・能力を評価するベンチマーク。音声認識精度だけでなく、音声から文脈・意図・感情を理解する能力も評価対象となる。

128K コンテキストウィンドウは、会話の長期履歴や大量のリファレンス情報をモデルに渡せる容量の指標。長時間の通話や複雑な業務フローに対応できる。

注意点

  • 価格は API 利用時のもの。 アプリ上の音声機能とは異なる
  • GPT-Realtime-Translate の対応言語ペア(70言語→13言語)の詳細は公式ドキュメントを参照のこと
  • Zillow の事例効果は同社固有の条件・業務環境に依存する

出典

編集部見解

(追記予定)

arrow_backニュース・トピックス一覧へ Autais

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。