articleニュース

xAI、Grok 音声 API(Speech-to-Text / Text-to-Speech)を正式公開 — 多言語・スピーカー分離・リアルタイム対応

および の独立 を公開した。低レイテンシ転写・自然な音声生成・リアルタイムと一括処理の両エンドポイント・多言語サポート・スピーカー分離・タイムスタンプ付与に対応する。

概要

※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。

の音声処理能力を独立した として提供開始した。Grok (音声→テキスト)と Grok (テキスト→音声)の 2 系統を分離提供し、低レイテンシのリアルタイムエンドポイントとエンドポイントの両方を用意した。多言語・スピーカー分離・タイムスタンプ付与・表現豊かな音声生成に対応する。

事実のポイント

  • Grok STT (Speech-to-Text) API:リアルタイム転写と一括転写の 2 エンドポイントを提供
  • 多言語サポート・スピーカー分離(話者識別)・発話タイムスタンプ付与に対応
  • Grok TTS (Text-to-Speech) API:表現豊かな音声合成(Expressive Speech Tags)をサポート
  • Grok 4.3 のリリースと同時に発表されたが、音声 API は独立したエンドポイント
  • Grok 4.3 自体は CaseLaw v2 で 1 位(79.3% 精度)を記録している

用語・背景の補足

スピーカー分離(Speaker Diarization)とは: 複数人が話す音声データから「話者 A はここから、話者 B はここまで」を自動判別する技術。会議録・インタビュー転写・コールセンター分析などで使われる。

Expressive Speech Tags(表現豊かな音声生成): テキストに感情・強調・速度などの指示タグを付与することで、平坦な読み上げでなく表情豊かな音声を生成できる機能。TTS の品質差異において重要な評価軸の一つ。

リアルタイムエンドポイント vs バッチエンドポイント: リアルタイムは即時応答が必要な通話・ボイスアシスタント向け。バッチはコストを優先した大量ファイル処理向け。用途に応じて使い分けることでコスト最適化ができる。

注意点

  • 音声 API の料金体系は xAI 公式ドキュメントで確認が必要(Grok 4.3 本体と別建ての可能性あり)
  • スピーカー分離の精度は話者数・音声品質・環境ノイズによって大きく変わる
  • 多言語対応の言語リストと各言語の精度差は公式ドキュメントで確認が必要

編集部見解

(追記予定)

info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。

出典

arrow_backニュース・トピックス一覧へ Autais

5つのご相談入口

目的に合った入口からお気軽にどうぞ。すべてカジュアル相談OKです。