阿里巴巴發佈開源視頻編輯模型革新視頻創作行業

2025-05-15 benny

阿里巴巴集團發佈最新開源視頻生成與編輯模型Wan2.1-VACE (Video All-in-one Creation and Editing)。此創新工具整合多項視頻處理功能於單一模型中，簡化視頻創作流程，提升效率與生產力。該模型支持基於文本、圖像和視頻的多模態輸入進行視頻生成，同時為創作者提供全面的視頻編輯功能，包括參考圖像或參考幀視頻生成、視頻轉繪、視頻局部編輯、畫面和時長延展等。

作為阿里巴巴視頻生成大模型「萬相2.1」（Wan2.1）系列的一員，Wan2.1-VACE是業內首個提供視頻生成與編輯統一解決方案的開源模型。借助這款先進工具，用戶可以根據圖像樣本生成包含特定主體的視頻，為靜態圖像添加自然運動效果使其「活起來」，同時還可使用姿態遷移、運動控制、深度控制和著色等高級視頻重繪功能。該模型還支持對視頻局部區域進行添加、修改或刪除而不影響區域外的內容，並能擴展視頻邊界，智能填充內容以豐富視覺體驗。

作為多合一AI模型，Wan2.1-VACE具有領先市場的多功能性，允許用戶結合多種功能，釋放創新潛力。用戶可將靜態圖像轉為視頻，並通過規定運動軌跡控制物體移動；替換指定人物或物體；為角色添加動畫效果並控制姿勢；將豎向圖像橫向擴展為橫版視頻，同時添加新元素。

創新技術推動AI普及

Wan2.1-VACE採用多項創新技術，在構建和設計時充分考慮了不同視頻編輯任務的需求。其統一接口「視頻條件單元」(Video Condition Unit, VCU)，可支持對文本、圖像、視頻和蒙版等多模態輸入進行統一處理。此外，該模型的「上下文適配」(Context Adapter) 結構，透過使用時空維度的形式化表徵來注入各種任務概念，這一創新設計使其能夠靈活處理各類視頻合成任務。