
谷歌在 I/O 2026 大會發表了全新的 Gemini Omni AI 影片生成與編輯模型,其具備先進的對話式編輯功能,能透過語音指令修改影片場景、角色與細節,甚至生成個人數位分身,並已逐步在 Google 旗下多個平台推出,有望革新影視內容創作方式。
在昨日落幕的谷歌(Google)I/O 2026 年度開發者大會上,谷歌 DeepMind 執行長德米斯·哈薩比斯(Demis Hassabis)宣布推出全新的「Gemini Omni」人工智慧(AI)影片生成與編輯模型。這款模型隸屬於多模態模型家族,整合了谷歌在世界模型方面的專業知識,期望將 AI 從預測文字推向模擬現實。
谷歌執行長皮蔡(Sundar Pichai)指出,Gemini 自推出以來即具備原生的多模態能力,透過結合文字、程式碼、音訊、圖像與影片進行訓練,使其能更深入理解世界。他強調,AI正從預測文字演進至模擬現實,而 Gemini Omni 正是朝此方向邁進的下一步。
Gemini Omni 的核心能力在於其對話式編輯功能,使用者可運用語音指令,對影片中的角色、背景或其他元素進行編輯,並保持其一致性。這款模型對物理、文化、歷史與科學具備更深層次的理解,使其能生成更具情境意識且逼真的內容。谷歌表示,Gemini Omni 長遠目標是實現「任何輸入皆能生成任何輸出」的願景,能夠整合圖像、音訊、影片和文字來創造影片。
從今日起,首個版本「Gemini Omni Flash」已逐步應用於 Gemini app、Google Flow 以及 YouTube Shorts 等平台,預計將於今年夏季全面推出。透過這項技術,使用者可以利用 AI 提示重新塑造影片的場景、視覺效果或動作,甚至新增角色或物件,將平凡的片段轉化為出人意料的畫面。它允許使用者改變影片的環境、拍攝角度、風格,甚至是特定的細節。此外,Gemini Omni 還能根據使用者的聲音和外貌,生成 AI 數位分身,使 AI 版本的使用者無需實際錄製即可在螢幕上發言或出現。
為確保 AI 生成內容的透明度與可驗證性,所有透過 Gemini Omni 製作的影片都將內嵌谷歌的隱形數位浮水印系統「SynthID」。這項技術的推出,預計將對影視製作、內容創作流程以及未來的視覺特效發展帶來廣泛影響。
