articleニュース
Google I/O 2026 — Gemini Omni 発表:動画・音声・テキストを統合生成する次世代マルチモーダル AI
Google I/O 2026 で発表された Gemini Omni は、テキスト・画像・音声・動画を入力として受け取り、動画・音声・テキストを同時に出力できるマルチモーダル統合 AI。Veo・Nano Banana・Genie を組み合わせた構成で、「世界をシミュレートできる」AIを目指す。Google AI Plus/Pro/Ultra ユーザー向けに今週より Gemini アプリでグローバル展開が開始。
概要
Google は I/O 2026(2026年5月19日)で Gemini Omni を発表した。テキスト・画像・音声・動画をすべて入力として受け取り、動画・音声・テキストを組み合わせて出力できる統合マルチモーダル AI モデルで、動画生成モデル Veo・画像生成 Nano Banana・世界モデル Genie を組み合わせた構成となっている。
「世界をリアルな知識で基礎づけながら動画を生成できる」と Google は説明しており、テキストプロンプトによる短編動画生成・静止画アニメーション化・生成シーンの会話式編集・テキスト/音声/画像の混合リアルタイム入力対応が可能。Google AI Plus・Pro・Ultra ユーザー向けに、Gemini アプリおよび Google Flow 経由でグローバル展開が今週から開始された。YouTube Shorts への Omni 統合は来週以降を予定。
事実のポイント
- Gemini Omni: テキスト入力 → 動画出力、画像入力 → アニメーション化、複合入力 → リアルタイム応答が可能
- Veo(動画生成)/ Nano Banana(画像生成)/ Genie(世界モデル)の統合アーキテクチャ
- リアルタイムでテキスト・画像・音声を混合入力し、マルチモーダル応答を返す
- Google AI Plus/Pro/Ultra 向けに Gemini アプリと Google Flow 経由でグローバル展開開始(5月19日〜)
- YouTube Shorts への Omni 統合は翌週(5月下旬)予定
- Omni は Google Flow(AI動画制作ツール)の中核エンジンとしても機能
用語・背景の補足
世界モデル(World Model)とは、現実世界の物理法則・時間変化・因果関係をデータから学習し、「次に何が起きるか」を予測・生成できる AI モデルの概念。Genie は Google DeepMind が開発した世界モデルで、ゲーム環境から現実世界の動的シーンまで対応を拡張中。
マルチモーダル生成の競合状況: OpenAI は Sora で動画生成、Meta は Movie Gen を開発中。Gemini Omni は「同一モデルが複数モダリティを双方向に扱う」統合度の高さを強調している。
解説
Gemini Omni の実用的な意義は、動画・音声・テキストを個別ツールに切り替えることなく、単一の AI モデルで一貫したコンテンツ制作ができる点にある。マーケティング・教育・ドキュメント作成など、動画と文章を行き来する用途での効率化が期待される。
一方で、「世界をシミュレートできる」という主張は現時点で Google 内部ベンチマークに基づくものであり、実用品質の外部検証はこれからの段階である。YouTube Shorts への統合は一般ユーザーへの最大の接点になるため、展開後の品質評価が注目される。
注意点
- 動画生成品質・コンテンツポリシー・著作権処理は発表段階で詳細未公表
- YouTube Shorts 統合の品質・著作権帰属ルールは展開時に確認が必要
- 「リアルタイム」処理能力はサーバー側負荷・回線品質により体験が変わる
- 現在は Plus/Pro/Ultra プラン限定。無料プランへの展開時期は未定
編集部見解
(追記予定)
info 公開情報をもとに編集部が再構成したサマリです。一次情報・追加情報は出典欄をご参照ください。