News

商湯推出「日日新」融合大模型 勇奪「雙冠王」

  •  
  •  
  •  

商湯正式推出「日日新」融合大模型,領先實現原生融合模態,深度推理能力與多模態信息處理能力均大幅提升,並在兩大權威評測榜單奪得第一,成為「雙冠王」。

商湯正式推出「日日新」融合大模型。

國內權威大模型測評機構SuperCLUE發佈《中文大模型基準測評2024年度報告》:商湯「日日新」融合大模型以總分68.3的優異成績,與DeepSeek V3一起並列國內榜首,成為年度第一。

商湯「日日新」融合大模型以總分68.3的優異成績,與 DeepSeek V3 一起並列國內榜首。

在近期另一個權威綜合評測機構OpenCompass的多模態評測中,商湯以同一款模型同樣取得了榜單第一,分數大幅領先GPT-4o。

商湯「日日新」在OpenCompass的多模態評測中以同一款模型取得榜單第一。

「一個模型,雙料冠軍」,意味著商湯率先在原生融合模態訓練取得實質性突破,這將引領業界從大語言模型和多模態大模型分立的普遍現狀,走向真正意義的模型合一。

商湯「日日新」突破了模態融合的技術,跨越了模態之間的鴻溝,為深度推理能力和多模態信息的結合作鋪墊。

商湯「日日新」融合大模型性能上「文理兼修」,在SuperCLUE年度評測中,文科成績以81.8分位列全球第一,超越OpenAI的o1模型;理科成績奪得金牌,其中計算維度以78.2分位列國內第一。

實現原生模態融合后,「日日新」融合大模型不止能達到人類「看」和「想」的水準,還可以幫助解決更多複雜問題,如看不清楚的字體、數據圖表中的資訊、文學創作與撰寫等。

圖表分析:提取關鍵要素、分析信息、給出結論,迅速完成,省時省力。

在實際應用場景中,相較於傳統大語言模型僅支持單一文本輸入的模式,「日日新」融合大模型展現出顯著優勢,尤其是在自動駕駛、視頻交互、辦公教育、金融、園區管理、工業製造等天然擁有豐富模態信息的場景中。

「日日新」融合大模型能夠有效滿足使用者對圖像、視頻、語音、文本等多源異構信息的綜合處理與識別需求。

例如,在辦公、金融領域,其行業屬性擁有很多複雜的富模態文檔:表格、文本、圖片、視頻,以及融合上述形式的豐富信息,商湯基於「日日新」融合大模型的應用——「辦公小浣熊」,可以高效地完成處理分析相關的複雜任務。

立即體驗商湯「辦公小浣熊」:https://xiaohuanxiong.com/

與此同時,基於融合大模型的優勢,商湯「日日新」在視覺交互上也有豐富的應用場景,例如,在線上教育、語音客服等場景,均可以結合語音和自然語言來提升交互體驗。

原生多模態大模型從去年年底就逐漸成為業內探討的重要方向。然而,由於數據和訓練方法的局限,業內很多機構的嘗試並不成功 —— 多模態訓練過程往往會導致純語言任務,尤其是指令跟隨和推理任務的性能嚴重下降。

得益於在計算機視覺領域十年深耕,以及人工智能賦能場景的豐富經驗,商湯一直堅信多模態模型是AI 2.0進行場景落地的必經之路,對於多模態大模型的研發也有自己的獨特見解。商湯在推動語言模型和多模態模型融合的過程中,發展出兩項關鍵的創新技術:融合模態數據合成與融合任務增強訓練,進而完成「日日新」融合大模型的訓練,推出市場。

商湯一直堅信多模態模型是AI 2.0進行場景落地的必經之路。

在預訓練階段,商湯不僅採用了天然存在的海量圖文交錯數據,還通過逆渲染、基於混合語義的圖像生成等方法合成了大量融合模態數據,在圖文模態之間建立起大量交互橋樑,使得模型基座對於模態之間的豐富關係有更紮實的掌握,也為更好地完成跨模態任務打下堅實的基礎,從而實現整體性能的提升。

在後訓練階段,商湯基於對廣泛業務場景的認知,構建了大量的跨模態任務,包括視頻交互、多模態文檔分析、城市場景理解、車載場景理解等。通過把這些任務融入到增強訓練的過程,商湯的融合模態模型不僅被激發出強大的對多模態信息進行整合理解分析的能力,而且還形成了對業務場景有效的響應能力。

實現多模態交互與深度融合,是走向世界模型的必經之路,商湯科技已在該賽道實現領跑優勢。


  •  
  •  
  •