ファクトシート
| 発表時期 | 2026-05-07 |
|---|---|
| 関連企業 | OpenAI |
| 種別 | AIモデルリリース(音声API) |
articleニュース
OpenAIが2026年5月7日、APIで利用できる新しいリアルタイム音声モデル3種を公開した。GPT-5クラスの推論能力を持つ「GPT-Realtime-2」、70言語以上の入力を13言語に同時翻訳する「GPT-Realtime-Translate」、ストリーミング文字起こしの「GPT-Realtime-Whisper」の3モデル。
| 発表時期 | 2026-05-07 |
|---|---|
| 関連企業 | OpenAI |
| 種別 | AIモデルリリース(音声API) |
OpenAIは2026年5月7日、APIで利用できるリアルタイム音声モデルの新世代3種を発表した。GPT-5クラスの推論能力を持つ「GPT-Realtime-2」、70言語以上の音声入力に対応するリアルタイム翻訳モデル「GPT-Realtime-Translate」、発話と同時に文字起こしを行う「GPT-Realtime-Whisper」の3モデルが開発者向けに提供開始された。
※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。
GPT-Realtime-2:
GPT-Realtime-Translate:
GPT-Realtime-Whisper:
「リアルタイム音声API」は、ユーザーの音声を録音してからサーバーに送信して処理するのではなく、音声を話しながら並行して処理するためのAPI。レイテンシが大幅に低下し、自然な会話体験を実現できる。
「GPT-5クラスの推論」とは、GPT-5以降に導入された段階的思考(内部的に複数ステップを検討してから回答する)能力を音声でも利用できることを意味する。従来のリアルタイム音声モデルはこの推論能力が制限されていた。
「ストリーミング文字起こし」とは、発話が終わってから文字起こしを行うバッチ処理ではなく、話しながらリアルタイムで文字に変換する処理。テレビの字幕や会議のリアルタイム議事録作成に適用しやすい。
今回の3種類のモデル公開は、音声インターフェースとAIの統合が実用フェーズに入っていることを示す。会議の自動翻訳・音声入力による業務処理・多言語カスタマーサポートなど、ビジネス活用の範囲が広がる。
特に注目されるのはGPT-Realtime-Translateの70言語以上対応だ。日本語を含む多くのアジア言語からの翻訳を音声でリアルタイムに行えることで、多言語チームでの会議やグローバル顧客対応に実用的な精度を持って使えるようになる可能性がある。
価格面では、GPT-Realtime-2の出力コスト(100万トークンあたり64ドル)はテキストモデルと比較して高い水準だが、音声処理の計算コストを反映している。GPT-Realtime-TranslateとWhisperは分単位の課金で計画が立てやすい。
(追記予定)
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。
目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。