「あらゆる入力から、あらゆるものを作る。まずは動画から」── テキスト・画像・音声・動画を1つのプロンプトで受け取り、会話するように動画を生成・編集できる Google の any-to-any マルチモーダル世界モデル。第一弾モデルが Gemini Omni Flash。通称「動画版 Nano Banana」。
単なる「テキスト→動画」生成器ではない。Gemini の推論力と世界知識を内側に抱えたまま動画を作る、Google が「世界モデル(world model)」と呼ぶ新世代モデル。
物理法則(重力・運動・流体)や歴史・科学・文化的文脈を理解して推論。「絵的に正しいか」ではなく「現実的に正しいか」を優先する。Demis Hassabis は「現実を忠実度高くシミュレートする」方向性として位置づけ。
テキスト/画像/音声/動画の4モダリティを1プロンプトで同時投入できる。入力を単に連結するのではなく、全入力を横断して推論し1本の一貫した動画を生成。出力は現状動画のみ(将来、画像・音声出力にも対応予定)。
Nano Banana(画像生成・編集)の核心は対話的に少しずつ編集できる体験。Omni はこれを動画へ拡張。最初の動画を基点に「カメラを左へ」「鏡を水のように波打たせて」など自然言語で特定要素だけ作り直す(全体は維持)。
CTO Koray Kavukcuoglu 曰く「Veo はテキストから動画のモデル。Omni は真のマルチモーダル入力・マルチ出力モデルだ」。Gemini の知性とメディアモデルの描画力を組み合わせた“次の一歩”という位置づけ。
発表当日から即日ロールアウト。YouTube 経由の無料導線を持つのが流通戦略の特徴で、「AI動画モデル史上もっとも広い消費者向け展開」とも評される。
AI Plus / Pro / Ultra の全有料ユーザーへグローバル提供(Gemini アプリ内)。
参考価格:Plus $20/Pro $30/Ultra $100(月) 価格は要確認
YouTube Shorts と YouTube Create アプリで今週より無料提供。月間27億ユーザーへ一気に露出。
提供チャネル:Gemini アプリ/Google Flow/YouTube/Google検索。
開発者・企業向け API は「数週間以内(coming weeks)」に提供予定(Vertex AI 経由とされる)。
発表時点でモデルカード・公式ベンチ・API料金は未公開。
注目の3軸 ──「日本語」「動画クオリティ・機能」「生成速度」。確度を分けて整理する。
独立評価の総意は「純粋な生成画質では Seedance 2.0 が依然トップ。Omni は“会話で編集できる”ワークフローで突出」。同じ土俵で競っていない、という棲み分け論が主流。ユーザー検証 数値は解説メディア由来・未確認多数
| 項目 | Gemini Omni Flash | Veo 3.1 | Sora | Seedance 2.0 |
|---|---|---|---|---|
| 最大動画長 | 10秒(拡張予定) | 8秒(参照画像時) | 最大60秒 | 最大15秒(音声同期) |
| マルチモーダル同時入力 | ◎ 画/音/動/テキストを1プロンプト | × 都度再プロンプト | — | 参照画像9+動画3+音声3 |
| 会話的な多ターン編集 | ◎ ほぼ独占で創出 | × 再生成方式 | — | — |
| 物理表現 | 公式は向上主張/実使用は賛否 | 高品質・高整合 | Sora2が上位の声 | ◎ 水・髪・布で最上位 |
| シネマティック品質 | 一段下との独立評価 | 高品質 | 高品質 | ◎ 最上位 |
| プロンプト追従 | ◎ 強みと評価 | — | — | — |
| 日本語テキスト描画 | ◎ 文字化け解消 | — | △ 文字化け報告 | — |
| 公開ベンチ | 未公開 | — | — | Elo 1,269/1,351(両部門世界1位) |
公式(Google DeepMind)が挙げる「動画プロンプト5要素」。細かく指定しすぎず、モデルの推論と世界知識に補完を委ねるのがコツ。 公式ガイド
会話編集のコツ:指示は“外科的”に。「同じキャラ・同じ部屋・同じタイミングのまま、新しい物体/カメラ/スタイルだけ変える」と変える要素と保つ要素を明示する。①ベース→②一貫性を固定→③ライティング/カメラ/アクション/音声を1ターンずつ層状に。
彫刻を泡でできたものにして 鏡を液体のように美しく波打たせて、 人物の腕を反射する鏡の素材に変えて ライティングをゴールデンアワーに変えて カメラの寄りをゆっくりにして
10秒・16:9のシネマティックな動画を、ワンカット(途切れない一続きのショット)で生成して。雨の降る窓辺の小さな机で、若いプロダクトデザイナーがスケッチブックを開くと、ページから小型のシルバーのドローンの設計が、リアルなホログラムとして立ち上がる。カメラは鉛筆の先のクローズアップから始まり、ゆっくり引いてミディアムショットになり、ホログラムがページの上で回転する間に左へ静かにオービットする。暖色のデスクランプの光、窓の外は冷たい青い雨、浅い被写界深度、リアルな手の動き。字幕なし、ロゴなし、自然な室内の環境音のみ。
古典コンピューティングと量子コンピューティングの違いを解説する、10秒の教育動画を生成して。暗い卓上で、手触り感のあるストップモーションのペーパークラフト風スタイル。古典ビットは、0と1を切り替える小さな紙のスイッチとして見せる。次に量子ビットは、測定前に両方の状態を示唆しながら回転する、光る紙のコインとして見せる。明確なビジュアル比喩、正確な動き、柔らかい上方からの光。人の手は映さない、ナレーションなし、物体の横に置く「bit」「qubit」のラベル以外の画面内テキストは入れない。
AI動画作成のTip向けに、9秒・横長16:9のSNS動画を生成して。クリーンな黒いスタジオ背景に、フレーム横いっぱいに浮かぶガラスのタイムラインUI。「prompt」「reference」「motion」「lighting」「sound」の各単語が、柔らかい電子音のクリックに合わせて1つずつリズミカルに出現する。各単語は上品で異なるアニメーション、ただしタイムラインとカメラは固定のまま。最後に5つの単語を、ワイドスクリーンの整ったチェックリストとして並べる。高コントラスト、鮮明なタイポグラフィ、余計な単語なし、ブランド名なし。
「面白い動画」を作るための企画プロンプト20案。基本式=[カメラ]+[被写体]+[動作]+[場所]+[スタイル/雰囲気]。セリフは「」、効果音は SFX: で書けば出る。画像→動画は短くてOK(動き・カメラ・光・音だけ)。全て日本語、コピーボタンでそのまま貼れます。 企画リサーチ由来
精巧なピタゴラ装置のワンカット。ビー玉が木製の斜面を転がり落ち、ドミノを倒し、それがレバーを押し、小さなボールを発射して、最後にベルを鳴らす。各段階が因果でつながる連続したスムーズなショット。明るい自然光、木のおもちゃ風、転がる音とベルの音まで物理に同期。
真上からのマクロショット。一滴のミルクが暗いコーヒーの水面に落下し、跳ね返って王冠状のコロナを形成、無数の微小な液滴が放射状に飛び散る。1000fps相当の超スローモーション、リング状の波紋が外側へ静かに伝播していく。
テーブルの縁から赤ワイン入りのグラスが滑り落ちる。スローモーションで固いタイル床に衝突した瞬間、ガラスが放射状に砕け、赤ワインが飛沫となって舞い上がる。破片はそれぞれ重さに応じて異なる軌道で跳ねる。斜め上からの照明、衝撃の瞬間を強調。
色とりどりのドミノが長い列をなして次々に倒れていく連続ワンショット。途中で1か所だけ間隔が広く空いており、倒れたドミノが次に届かず連鎖が一瞬止まりかけるが、勢いでギリギリ届いて再開する。低い視点でカメラがドミノの進行に合わせて横移動。
マクロレンズの超スローモーション。透明なガラスのコップに、黄金色の蜂蜜が細い一本の糸となって落ちていく。底に溜まった蜂蜜の表面が粘度でゆっくり盛り上がり、コイル状に巻き重なって積もっていく。柔らかな逆光、背景は暗い木目のテーブル。
ボウリングのレーンを重い黒のボールが回転しながら転がり、ピンに斜めから命中。ピンが運動量を伝え合い、複雑に弾き合ってストライクになる。スローモーションで木の床に反射する照明、飛び散るピンが互いに衝突する音まで再現。
砂時計の上室から細かな砂がくびれを通って下室に落ち、円錐状に積もっていくマクロショット。積もった砂山が一定の角度を超えると小さな崩落(雪崩)を起こして再び安定する。柔らかな逆光で砂粒がきらめく。
水中で女性が振り向き、長い髪がスローモーションで放射状に広がる。一本一本が水の抵抗を受けて遅れて動き、上から光の筋が差し込む。気泡が立ち上り、髪が顔の周りでゆっくり漂う。シネマティックな青いトーン。
木のまな板の上に、超精細なガラス製のイチゴが置かれている。温かく柔らかい光、シネマティックな被写界深度。ステンレスのナイフがガラスの果実をゆっくりと切り、クリーンなスローモーションの断面と、心地よいガラスの砕ける音を生む。
部屋を暗くする。手のひらの上に浮遊して追従するガラス球の中に、白黒チェッカーボードの部屋を入れる。その球の中には、同じ手が同じ球を持つ姿が無限に入れ子になり、無限再帰の空間を作る。カメラがゆっくり球にズームインして、シームレスにループする動画にする。
人が鏡に手で触れると、鏡面が水面のように美しく波打ち、その人の腕が触れた箇所からゆっくりと光を反射する鏡素材に変わっていく。スローモーション、暗い部屋、波紋が腕を伝って広がる。
複雑なターミナル画面を操作する超精細なアンドロイド。濃い大気の煙と、移ろうネオンの光に包まれている。被写体と背景がはっきり分離し、3D空間が固定され、ネオンが金属表面に正確に反射する。シネマティックなサイバーパンク。
大学教授が伝統的な黒板に、三角関数の恒等式の証明を一行ずつ書いていく。今書いているステップを声に出して説明する。手書きの数式とチョークの質感、フレームをまたいで文字が崩れない。教室の自然光。教授が「ここで両辺にコサインを掛けます」と説明する。
暗い背景で、赤と青の色付きスモークが互いに向かって流れ込み、ぶつかって渦を巻きながら混ざり合う。乱流が複雑な渦糸を作り、ゆっくり上昇して薄れていく。スローモーション、サイドからのスポットライト。
この写真の人物たちがゆっくり笑い出し、まばたきして、互いに顔を見合わせる。微かに体が動き、当時の暖かい雰囲気が蘇る。動きは控えめで自然に。
この絵画の筆致・タッチと色彩を完全に保ったまま、描かれた人物が微笑み、背景の雲がゆっくり流れる。油彩(または浮世絵)の質感はそのまま、絵が生きているように動く。
この商品が黒いステージ上でゆっくり360度回転し、スポットライトが表面のテクスチャを舐めるように当たる。高級感のあるCM風、リッチな反射、背景に微細なパーティクルが舞う。
この添付のペット写真をセル画調のアニメスナップに変換し、ジブリ映画のワンシーンのように動かす。ペットがカメラの方を見て、耳がピクッと動き、不思議そうに首をかしげ、まばたきする。柔らかな風が毛をなびかせる。
1枚目のスケッチを構図と動きのガイドとして、2枚目の写真の質感・色味・ライティングで実写級の映像を生成する。スケッチの矢印が示す方向にカメラがゆっくり移動する。
彫刻を泡(bubbles)で作って このバイオリニストを、参照画像の環境に移動させて カメラをバイオリニストの肩越しのアングルに変えて 入力動画のポーズと動きを、この画像のキャラに適用して
① まな板の上に本物のイチゴが置かれた動画を作って。 ② このイチゴを透明なガラス製に変えて。 ③ ナイフでスローモーションで切って、ガラスが砕ける音を足して。 ④ 今度はイチゴをチョコレートに変えて、ナイフが入ると中からとろりと溶け出すようにして。 ⑤ カメラを真上からのマクロアングルに変えて、BGMに静かなピアノを足して。
① つかみ:No.12 ロボット or No.10 ガラス球で「これ全部AI」 → ② Omniとは30秒 → ③ 使い方デモ:No.01 ピタゴラ→そのまま No.20 で会話編集して変身 → ④ 物理連発 No.02〜08(Veo比較を差し込む)→ ⑤ 画像活用 No.15 感動→No.17 実用→No.18 参加企画 → ⑥ No.09 ASMRで締め+CTA。
検証パート(Veo比較)は技術クラスタ、ショーケースは一般層に刺さる。両方入れるのがミックス構成の狙い。映画のオープニングでタイトルロゴが「ドン!」と現れるあの演出を、日本語タイトルで。コツ:①表示文字は「」で明記+フォント感(重厚な明朝体/力強い毛筆/金属的なメタルロゴ)、②ハリウッド感は効果音が9割(重低音ドローン・BWAAAM・金属音)、③短い漢字2〜4文字が最も決まる。 企画リサーチ由来
[00:00-00:03] 真っ暗な画面、(要素:火花/煙/光/粒子)がゆっくり集まり始める。低く唸るドローン音。 [00:03-00:06] その要素が日本語タイトル「〇〇」の形を作っていく。 [00:06-00:08] タイトルが画面中央に轟音とともに完成(スラムイン)、衝撃波とフラッシュ。 [00:08-00:10] 余韻。タイトルが静かに光り、ゆっくり暗転。 全体のスタイル:シネマティック、IMAX級のスケール、アナモルフィックレンズフレア、ティール&オレンジ、重厚なオーケストラ/重低音。
[00:00-00:03] 漆黒の闇に、赤熱して溶けた金属がドロリと流れ込み、文字の輪郭を描き始める。低く唸るドローン音。 [00:03-00:06] 巨大なハンマーが叩くたびに無数の火花が飛び散り、漢字「鋼鉄の咆哮」が一画ずつ鍛えられていく。鋭い金属音「キン、キン」。 [00:06-00:08] 最後の一撃で文字が完成、衝撃波と火花が爆ぜる「ドゴォン」。 [00:08-00:10] 鋼鉄の文字が冷えて青みを帯び、カメラがゆっくり引く。 全体のスタイル:エピックな歴史・戦争映画のOP、暗い背景に火花のパーティクル、IMAX級のスケール、重厚なオーケストラと低音。
[00:00-00:03] 暗い青の空間に冷気が漂い、霜がガラスを這うように広がる。きしむ氷の音。 [00:03-00:06] 霜が一気に結晶化し、透明な氷で漢字「極寒」が形成される。内部で光が屈折してきらめく。 [00:06-00:08] 周囲の余分な氷が「パキィン」と砕け散り、タイトルだけが残る。 [00:08-00:10] 冷たい青い光が文字を照らし、白い吐息のような霧が流れる。 全体のスタイル:寒色のシネマティック、アナモルフィックの青いレンズフレア、IMAX級、緊張感のある弦楽器と低音。
[00:00-00:04] ほぼ真っ暗な画面に、オレンジ色の残り火(火の粉)がふわふわと舞い、ゆっくり上昇する。深く低い持続音。 [00:04-00:07] 火の粉が一点に収束し、その熱で漢字「終焉ノ刻」が赤く灼けながら浮かび上がる。 [00:07-00:09] 重低音の衝撃「BWAAAM」とともに文字が一瞬白く発光。 [00:09-00:10] 光が引き、文字が冷えた灰色になって余韻を残す。 全体のスタイル:クリストファー・ノーラン風の重厚で静かなOP、暗いトーン、最小限の光、漂う火の粉、ブラスの重低音スティング。
[00:00-00:02] 真っ暗な宇宙空間、遠くに小さな星の光がひとつ瞬く。静寂、かすかな宇宙の低音。 [00:02-00:04] その光がぐんぐん近づき、まばゆく膨張する。 [00:04-00:05] 漢字「覚醒」が画面中央に轟音とともにスラムイン、横一文字に青いアナモルフィックレンズフレアが鋭く走る。 [00:05-00:10] フレアがゆっくり収まり、文字が金属的に静かに光る。低音の余韻。 全体のスタイル:スタイリッシュなSF大作のOP、深い黒、青と白のレンズフレア、IMAX、シンセと重低音。
[00:00-00:03] 黒い空間に、無数の黄金の砂粒のような粒子が渦を巻きながら漂う。きらめく高音のチャイム。 [00:03-00:06] 粒子が磁力に引かれるように一点へ集まり、漢字「黄金郷」を形作っていく。 [00:06-00:08] 文字が完成した瞬間、金色の光が放射状に弾ける「シャァァン」。 [00:08-00:10] 余った粒子がゆっくり降り注ぎ、文字が荘厳に輝く。 全体のスタイル:豪華絢爛なアドベンチャー大作のOP、黒背景に金のパーティクル、被写界深度、壮大なオーケストラとコーラス。
[00:00-00:03] 苔むした巨大な古代の石壁。上から一筋の光が差し込む。荘厳な低いコーラス。 [00:03-00:07] 見えない力で石が削れ、漢字「神域」が深く彫り込まれていく。削れた石の粉がパラパラと落ちる。 [00:07-00:09] 彫り込みの溝の奥から金色の光が漏れ出し、文字が浮かび上がる。地鳴りの低音。 [00:09-00:10] 光が安定し、神聖な空気が満ちる。 全体のスタイル:ファンタジー叙事詩のOP(指輪物語風)、荘厳な石の質感、舞う埃と光のシャフト、壮大な合唱とホルン。
[00:00-00:02] 真っ暗な画面に、一筋の火花が走る。 [00:02-00:05] その火が漢字「逆襲」の筆順に沿って一気に燃え広がり、文字全体が炎で描かれる「ゴォォ」という燃焼音。 [00:05-00:08] 炎が最高潮に燃え上がり、火の粉が舞い上がる。爆発的な衝撃音。 [00:08-00:10] 炎が静まり、赤熱した文字がくすぶりながら残る。煙が立ち上る。 全体のスタイル:アクション大作のOP、漆黒の背景に激しい炎と火の粉のリアルな流体、ティール&オレンジ、激しいドラムとブラス。
[00:00-00:03] 分厚い雲の中をカメラが上昇していく。雲の隙間から朝日が漏れる。壮大な弦の立ち上がり。 [00:03-00:06] 雲を突き抜けて澄んだ青空に出る。太陽がレンズフレアを放つ。 [00:06-00:08] 光の中から日本語タイトル「蒼穹のかなた」が荘厳にフェードイン、ゆっくり手前へ。ブラスのファンファーレ。 [00:08-00:10] タイトルが安定し、その後ろを雲が流れていく。 全体のスタイル:ユニバーサル/映画スタジオのident風の壮大なOP、ゴールデンアワー、太陽のフレア、感動的なフルオーケストラ。
[00:00-00:03] 雨に濡れた夜のネオン都市を見下ろす空撮。ノイズとグリッチが走る。重い電子ドローン。 [00:03-00:06] 画面中央に、ホログラムのように日本語タイトル「電脳市 NEO-TOKYO」がデジタルグリッチでチカチカと実体化していく。RGBがズレる。 [00:06-00:08] ノイズが「バツッ」と収束し、タイトルがネオンで鮮明に点灯する。 [00:08-00:10] 文字がわずかに明滅し、雨粒越しに滲む。 全体のスタイル:ブレードランナー風サイバーパンクのOP、ネオンの紫と青、雨、ホログラム、グリッチ、重厚なシンセウェイブ。
[00:00-00:03] 黒い嵐雲が渦巻く空。遠くで雷鳴がゴロゴロと轟く。風の唸り。 [00:03-00:05] 一筋の巨大な稲妻が画面を縦に走り、その閃光が一瞬、毛筆で書かれた漢字「雷神」を白く浮かび上がらせる。激しい落雷音「ドガァン」。 [00:05-00:08] 連続する稲妻のたびにタイトルが明滅し、雨が降り注ぐ。 [00:08-00:10] 最後の落雷でタイトルが力強く確定し、稲妻の余韻が走る。 全体のスタイル:和風アクション/時代劇大作のOP、嵐の暗い空、稲妻の閃光、降りしきる雨、和太鼓と重低音。
満点の星空の宇宙空間。画面の下から上へ、黄色い日本語のテキストが奥へ向かって斜めに流れていく(パースのついたクロール)。テキストは「遠い昔、はるか彼方の銀河系で——」から始まり、ゆっくりと遠ざかって消えていく。荘厳なオーケストラのファンファーレ。背景は無数の星のみ。 全体のスタイル:スペースオペラ大作の伝説的なオープニングクロール、深い黒の宇宙、黄金色の文字、壮大な金管。
※ X(Twitter) 生投稿への直接アクセスは不可のため、以下はいずれもX投稿を引用した記事経由。 記事経由引用
Wow! Google DeepMind just dropped an amazing new AI multimodal called Gemini Omni. The videos look super good! Must try ASAP!
動画内オブジェクトをチャットで編集する操作は明らかに未来の方向。速度と一貫性は予想を超えた。
this is one of the best video models I have seen — maybe not THE best, but a really strong performance.(特にプロンプト追従性を称賛)
Gemini Omni could make traditional video editing apps feel ancient.(従来の編集アプリを“時代遅れ”に感じさせうる)
出力品質に “uncanny valley(不気味の谷)” 的な見え方。初期クリップはやや滑らかすぎて流体感が出る。
物理バグを確認(投石機が後ろ向きに発射)。公開ベンチがない点も指摘。生成フィデリティは Seedance 2 に劣る。
「They're not competing for the same thing」── Seedance はフィデリティ、Wan はマルチモーダル参照、Omni はチャット編集で(暫定)首位。日本勢は「実写の video-to-video 編集」「ナレッジ系ショート」での実用性を高く評価。
“the winner of AI video won't be decided by a benchmark leaderboard. It will be decided in Discord servers at 1am.”