News

阿里巴巴發佈開源視頻編輯模型 革新視頻創作行業

  •  
  •  
  •  

阿里巴巴集團發佈最新開源視頻生成與編輯模型Wan2.1-VACE (Video All-in-one Creation and Editing)。此創新工具整合多項視頻處理功能於單一模型中,簡化視頻創作流程,提升效率與生產力。該模型支持基於文本、圖像和視頻的多模態輸入進行視頻生成,同時為創作者提供全面的視頻編輯功能,包括參考圖像或參考幀視頻生成、視頻轉繪、視頻局部編輯、畫面和時長延展等。

作為阿里巴巴視頻生成大模型「萬相2.1」(Wan2.1)系列的一員,Wan2.1-VACE是業內首個提供視頻生成與編輯統一解決方案的開源模型。借助這款先進工具,用戶可以根據圖像樣本生成包含特定主體的視頻,為靜態圖像添加自然運動效果使其「活起來」,同時還可使用姿態遷移、運動控制、深度控制和著色等高級視頻重繪功能。該模型還支持對視頻局部區域進行添加、修改或刪除而不影響區域外的內容,並能擴展視頻邊界,智能填充內容以豐富視覺體驗。 

阿里巴巴發佈開源視頻編輯全功能模型Wan2.1-VACE。

作為多合一AI模型,Wan2.1-VACE具有領先市場的多功能性,允許用戶結合多種功能,釋放創新潛力。用戶可將靜態圖像轉為視頻,並通過規定運動軌跡控制物體移動;替換指定人物或物體;為角色添加動畫效果並控制姿勢;將豎向圖像橫向擴展為橫版視頻,同時添加新元素。

Wan2.1-VACE採用多項創新技術,在構建和設計時充分考慮了不同視頻編輯任務的需求。其統一接口「視頻條件單元」(Video Condition Unit, VCU),可支持對文本、圖像、視頻和蒙版等多模態輸入進行統一處理。此外,該模型的「上下文適配」(Context Adapter) 結構,透過使用時空維度的形式化表徵來注入各種任務概念,這一創新設計使其能夠靈活處理各類視頻合成任務。

Wan2.1-VACE整合多項視頻處理功能於單一模型中,可簡化視頻創作流程,提升效率與生產力。

得益於模型架構的進步,Wan2.1-VACE可廣泛應用於社交媒體短視頻的快速製作、廣告營銷的內容創作、影視後期的特效處理,以及教育培訓視頻的生成等領域。

訓練視頻基礎模型需要大量計算資源和高質量訓練數據,開源此模型有助於更多企業以高成本效益的方式,快速創建符合需求的高質量視覺內容,推動AI的普惠與普及。

阿里巴巴開源的Wan2.1-VACE模型提供140億參數和13億參數兩個版本,已在Hugging Face、GitHub以及阿里雲開源社區ModelScope上發佈,可免費下載使用。

阿里巴巴已於2025年2月開源了四款萬相2.1系列模型,並在上個月開源了支持首尾幀視頻生成的模型。截至目前,這些模型在Hugging Face和ModelScope上的下載量已超過330萬次。


  •  
  •  
  •  

benny

Benny Yeung ~ 企業IT傳媒人,經常四周穿梭科技巨企及論壇,熱愛探討新商機。性格貪玩,但喜歡閱讀沉悶的企業賺蝕數字,最重視辦事效率。