Reports

IDC中國大模型評估:百度第一、阿里第二、商湯及OpenAI第三

  •  
  •  
  •  

國際數據公司IDC發布《中國大模型市場主流產品評估,2024》,從基礎能力到應用能力7大維度對百度、OpenAI、阿里、商湯、科大訊飛、百川、智譜、崑崙萬維等11家大模型廠商的16款市場主流產品進行實測。結果顯示,百度位於第一、阿里第二、商湯及OpenAI同屬第三。

百度旗下生成式AI產品文心一言與文心一格在問答理解類、推理類、創作表達類、數學類、代碼類的基礎能力,toC通用場景類、toB特定行業類的應用能力等7大維度均具備領先優勢。其他評測廠商中,阿里獲6項優勢維度,OpenAI GPT-4和商湯分獲5項。

IDC此次採取實測的方式,成立產品測試團隊,透過多個維度對基礎大模型及相關產品進行評測,並邀請外部專家團隊深入分析各個產品答案準確性、合理性等,在審核委員會的監督下,最終得出各廠商的評估結果,供使用者選用參考。

百度、OpenAI、阿里、商湯、科大訊飛、百川、智譜、崑崙萬維等11家大模型廠商參與了本次評估。

在基礎能力評測中,大模型產品在問答理解類、推理類和創作表達類的成熟度較高。百度文心大模型在目前關注度高的多模態、安全、文字風格遷移等細類評估中表現出色,體現出強大的基礎模型能力。在數學類和代碼類等考驗模型邏輯、推理等能力的評測中,百度文心大模型同樣表現優異,體現出強大的體系化思考、邏輯思考和抽象思考能力。在代碼類所有6個細分維度中,百度均入圍優勢廠商。據了解,基於文心大模型百度開發了智慧代碼助理Comate,目前整體採納率已達46%,新增程式碼中產生比例已達27%。

應用能力評測主要評估大模型產品在辦公室工具、生活助理等toC通用場景類及toB特定產業類的表現。評測結果顯示,百度文心大模型在搜尋、寫郵件、文生圖表等辦公場景和衣食住行、生活服務、閒聊創意等生活助手場景中都具備優勢。此外,文心大模型已在能源、金融、媒體、醫療、通訊、製造、交通、網路等產業形成廣泛的落地應用生態,透過大模型解決許多場景的實際問題。

公開資料顯示,2023年10月,文心大模型4.0正式發布,實現了基礎模型的全面升級,在理解、生成、邏輯和記憶能力上明顯提升。截至目前,文心一言累計用戶規模已達2億,每日平均呼叫量也達到了2億。

此外報告顯示,在產業落地上,百度智慧雲端推出千帆大模型平台,以一站式企業級大模型開發及服務運行平台服務大眾。 2024年5月底,百度宣布文心大模型的兩款主力模型ERNIE Speed、ERNIE Lite免費。截至目前,包括國家電網、浦發銀行、中國航太、吉利、長安汽車、泰康保險、TCL、上海辭書出版社、榮耀、三星、蔚來汽車、南方電網、山東港、汽車之家、畢馬威等都成為百度文心大模型的使用者和合作夥伴。文心大模型已經擁有中國最廣的產業落地規模。

IDC認為,從2024年第二季開始,中國市場迎來了一波基礎大模型及產品的更新升級,新一輪的「百模大戰」一觸即發。 IDC中國大模型產品測試團隊表示,2024年產業界更加關注大模型和生成式AI的落地,技術供應商需持續優化生成質量,提高生成速度並降低大模型使用成本,加快大模型技術的應用與普及。


  •  
  •  
  •  

benny

Benny Yeung ~ 企業IT傳媒人,經常四周穿梭科技巨企及論壇,熱愛探討新商機。性格貪玩,但喜歡閱讀沉悶的企業賺蝕數字,最重視辦事效率。