articleニュース
xAI、短音声から声をクローン化する Voice Cloning API をリリース
xAI が Voice Cloning API を公開。短い音声クリップをもとに声を複製し、テキスト読み上げ・音声エージェント API を通じて利用できる。低レイテンシの音声文字変換 API(Speech to Text)とテキスト読み上げ(TTS)も同時リリースされた。
概要
※本記事は公開情報をもとに編集部が再構成したサマリです。一次情報は出典欄をご参照ください。
xAI は新たに、短い音声クリップから声を複製(クローン化)する Voice Cloning API を開発者向けにリリースした。合わせて、低レイテンシの文字起こし(Grok Speech to Text)とテキスト読み上げ(Grok Text to Speech)の独立 API も同時に公開。リアルタイム・バッチ両対応の文字起こし、多言語対応、話者分離(話者ダイアリゼーション)、タイムスタンプ、表現豊かな音声生成機能を含む。
事実のポイント
- xAI が Voice Cloning API をリリース——短い音声クリップ(数秒〜数十秒)から声を複製し、TTS や Voice Agent API に使用可能
- 同時に Grok Speech to Text API と Grok Text to Speech API を独立した API として公開
- Speech to Text はリアルタイム・バッチ両エンドポイント対応、多言語サポート、話者ダイアリゼーション(複数話者の識別)、タイムスタンプ機能を搭載
- Text to Speech は「表現豊かな音声生成(expressive speech)」機能を含む
- エンタープライズ・チーム向けに先行提供
用語・背景の補足
Voice Cloning: 既存の音声サンプルをもとに、同じ声質・トーンで新たな発話を合成する技術。コールセンター自動化、音声アシスタントのパーソナライズ、コンテンツ作成などに活用される一方、なりすまし・ディープフェイク音声の悪用リスクも指摘される。
話者ダイアリゼーション(Speaker Diarization): 複数の話者が混在する音声データから、「誰がいつ話しているか」を自動的に分離・識別する技術。会議録・議事録の作成自動化に有用。
低レイテンシ文字起こし: 音声入力からほぼリアルタイムでテキストに変換する機能。電話応対・通訳支援・リアルタイム字幕などの用途に必要とされる。
注意点
- Voice Cloning API の悪用防止策(規約・技術的制限)の詳細は xAI の公式ポリシーを確認すること
- 日本語対応の有無・精度については公式ドキュメントを参照する必要がある
- クローン音声の利用は権利者の同意なしに第三者の声を複製することが禁止されており、倫理・法的リスクへの注意が必要
- エンタープライズ・チーム向け先行提供のため、個人・小規模事業者向けの提供時期は別途確認が必要
編集部見解
(追記予定)
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。