News

IBM推出代理型AI面臨非結構化數據難題的解決方案

  •  
  •  
  •  

IBM正在從根本上簡化面向AI的數據堆棧。IBM在Think大會上預覽watsonx.data的重大演進,以幫助組織做好數據準備為AI所用,同時提供一個開放的混合數據基礎架構和企業級的結構化和非結構化數據管理。

代理型AI面臨非結構化數據難題,IBM watsonx.data將AI準確性提高40%。

測試結果顯示,與傳統RAG相比,IBM watsonx.data的AI準確性提高了40%。IBM於6月推出的產品和功能包括:

  • Watsonx.data integration(集成),該軟件可在單個界面中編排不同集成樣式和格式的數據訪問和工程設計,其核心是靈活性和規模
  • Watsonx.data intelligence(智能),該軟件可改變組織處理、管理和利用有意義數據的方式,利用AI的力量簡化數據治理
  • 在Meta的 Llama Stack中增加 watsonx作為API提供商,增強了企業大規模部署生成式AI的能力,並以開放性為核心

Watsonx.data集成和 Watsonx.data智能將作為獨立產品提供,部分功能也將通過 Watsonx.data提供,從而最大限度地提高客戶選擇和模塊化程度。

為了補充這些產品,IBM近期宣佈了收購DataStax的意向,DataStax擅長將非結構化數據用於生成式AI。借助 DataStax,客戶可以訪問其他矢量搜索功能。

基於內部測試,對比使用 watsonx.data Premium Edition 檢索層與僅矢量RAG在三個常見用例中 AI 模型輸出答案的準確性,測試使用IBM專有數據集,採用相同的選定開源通用推理、評估和嵌入模型以及額外變量。測試結果可能因具體情況而異。

企業正面臨著實現準確且高性能的生成式AI——尤其是具有自主決策能力的代理AI人的重大障礙,但該障礙並非如大多數企業領導者所想。

問題不在於推理成本或難以捉摸的「完美」模型。問題在於數據。

企業需要可信且具有公司特性的數據,才能讓代理AI真正創造價值——這些數據存在於電子郵件、文檔、演示文稿和視頻等非結構化數據中。據估計,2022年企業產生的數據中90%是非結構化數據,但IBM預測其中僅有1%為大型語言模型(LLMs)所用。

非結構化數據的利用往往面臨巨大挑戰。這類數據分布廣泛且動態變化,儲存於多種格式中,缺乏清晰的標籤,且常需額外上下文才能完整解讀。傳統檢索增強生成(RAG)技術難以有效提取其價值,也無法妥善整合非結構化與結構化數據。

與此同時,各類孤立的工具會使AI數據處理架構變得複雜且繁瑣。企業需要同時管理數據倉庫、數據湖以及數據治理和數據集成工具。數據架構可能與它本應管理的非結構化數據一樣令人困惑。

許多組織並未解決根本問題。它們僅關注生成式AI的應用層,而非其下方的核心數據層。除非組織修復其數據基礎架構,否則AI代理和其他生成式AI計劃將無法充分發揮其潛力。

IBM提供的新功能將使組織能夠採集、治理和檢索非結構化(及結構化)數據——在此基礎上,實現準確、高性能的生成式AI的規模化應用。


  •  
  •  
  •