商湯推出人物視頻大模型Vimi 攻網紅市場

在上海舉行的2024世界人工智能大會上，商湯科技推出首個向廣大用戶開放的可控人物視頻生成大模型Vimi，為廣大短片創作者提供簡單又好用的創作工具，可廣泛應用於人物類短片的創作。

目前，行業中80%短片都以人物為主要題材，加上短片、直播平台崛起，以人物為主體的短片需求大幅增長。然而，市面上缺少可控人物視頻生成的AIGC產品，導致內容創作者的效率有待提升。

隨著大模型和生成式AI技術快速發展，讓照片中的人物動起來已不是新鮮事，但目前市面上相關產品的實際應用仍存在挑戰，包括：

為解决這些實際應用問題，商湯可控人物視頻生成大模型Vimi應運而生。Vimi基於商湯日日新大模型的強大能力，只需要一張任何風格的照片就能生成和目標動作一致的人物類短片，並支持多種驅動方式如已有人物影片、動畫、聲音、文字等多種元素。

與圖片表情控制類技術只能控制面部表情動作不同，Vimi不但可以實現精準的人物表情控制，還可控制照片中人物上半身的自然肢體動作，並自動生成與人物相符的頭髮、服飾及背景變化。同時光影變化也能做到合理生成，讓人物動作和視覺效果流暢自然，畫面和諧唯美。

更重要的是，Vimi具備極強的穩定性，可穩定生成長達1分鐘的單鏡頭人物類短片，畫面效果不會隨著時間變化而降低品質或失真，真正滿足娛樂互動等需要長時間穩定短片生成的需要。

Vimi將完全向廣大用戶開放使用。用戶只需上傳不同角度的高清人物照片，即可自動生成數字分身和不同風格的寫真短片。由Vimi生成的短片人物不再只是呆板的五官運動，而是搭配手勢、肢體動作、頭髮等，形成更完整的人物動作，讓創作者可基於生成的短片素材進行剪輯和二次創作。

針對喜愛自拍的用戶，Vimi支援聊天、唱歌、舞動等多種娛樂互動場景；對於熱衷表情包的用戶而言，Vimi通過單張圖片即可驅動生成各種具趣味的人物表情包，玩法多樣，實現創作自由。此外，Vimi亦提供唯美寫真風、奇幻風等多種生成風格，讓用戶仿佛穿越不同次元，享受富電影感的沉浸式視覺體驗。

目前，行業中80%短片都以人物為主要題材，加上短片、直播平台崛起，以人物為主體的短片需求大幅增長。然而，市面上缺少可控人物視頻生成的AIGC產品，導致內容創作者的效率有待提升。Vimi恰恰填補了此需求，為廣大短片創作者提供簡單又好用的創作工具，可廣泛應用於人物類短片的創作。

Vimi以商湯日日新大模型體系為基礎，結合商湯在計算機視覺領域的多年技術經驗，能够精準識別和理解複雜的人物圖片，並通過強大的AIGC能力，生成和諧、穩定的短片內容。

Vimi已在商湯科技官網開放預約，並將在7月5日商湯科技舉辦的「大愛無疆·向新力」人工智能論壇上披露更多細節。