IDC中國大模型評估：百度第一、阿里第二、商湯及OpenAI第三

2024-06-13 benny

國際數據公司IDC發布《中國大模型市場主流產品評估，2024》，從基礎能力到應用能力7大維度對百度、OpenAI、阿里、商湯、科大訊飛、百川、智譜、崑崙萬維等11家大模型廠商的16款市場主流產品進行實測。結果顯示，百度位於第一、阿里第二、商湯及OpenAI同屬第三。

百度7大維度領先

百度旗下生成式AI產品文心一言與文心一格在問答理解類、推理類、創作表達類、數學類、代碼類的基礎能力，toC通用場景類、toB特定行業類的應用能力等7大維度均具備領先優勢。其他評測廠商中，阿里獲6項優勢維度，OpenAI GPT-4和商湯分獲5項。

IDC此次採取實測的方式，成立產品測試團隊，透過多個維度對基礎大模型及相關產品進行評測，並邀請外部專家團隊深入分析各個產品答案準確性、合理性等，在審核委員會的監督下，最終得出各廠商的評估結果，供使用者選用參考。

百度、OpenAI、阿里、商湯、科大訊飛、百川、智譜、崑崙萬維等11家大模型廠商參與了本次評估。

在基礎能力評測中，大模型產品在問答理解類、推理類和創作表達類的成熟度較高。百度文心大模型在目前關注度高的多模態、安全、文字風格遷移等細類評估中表現出色，體現出強大的基礎模型能力。在數學類和代碼類等考驗模型邏輯、推理等能力的評測中，百度文心大模型同樣表現優異，體現出強大的體系化思考、邏輯思考和抽象思考能力。在代碼類所有6個細分維度中，百度均入圍優勢廠商。據了解，基於文心大模型百度開發了智慧代碼助理Comate，目前整體採納率已達46%，新增程式碼中產生比例已達27%。

應用能力評測主要評估大模型產品在辦公室工具、生活助理等toC通用場景類及toB特定產業類的表現。評測結果顯示，百度文心大模型在搜尋、寫郵件、文生圖表等辦公場景和衣食住行、生活服務、閒聊創意等生活助手場景中都具備優勢。此外，文心大模型已在能源、金融、媒體、醫療、通訊、製造、交通、網路等產業形成廣泛的落地應用生態，透過大模型解決許多場景的實際問題。

文心一言累計用戶達2億

公開資料顯示，2023年10月，文心大模型4.0正式發布，實現了基礎模型的全面升級，在理解、生成、邏輯和記憶能力上明顯提升。截至目前，文心一言累計用戶規模已達2億，每日平均呼叫量也達到了2億。

此外報告顯示，在產業落地上，百度智慧雲端推出千帆大模型平台，以一站式企業級大模型開發及服務運行平台服務大眾。 2024年5月底，百度宣布文心大模型的兩款主力模型ERNIE Speed、ERNIE Lite免費。截至目前，包括國家電網、浦發銀行、中國航太、吉利、長安汽車、泰康保險、TCL、上海辭書出版社、榮耀、三星、蔚來汽車、南方電網、山東港、汽車之家、畢馬威等都成為百度文心大模型的使用者和合作夥伴。文心大模型已經擁有中國最廣的產業落地規模。

IDC認為，從2024年第二季開始，中國市場迎來了一波基礎大模型及產品的更新升級，新一輪的「百模大戰」一觸即發。 IDC中國大模型產品測試團隊表示，2024年產業界更加關注大模型和生成式AI的落地，技術供應商需持續優化生成質量，提高生成速度並降低大模型使用成本，加快大模型技術的應用與普及。