News

加速AI訓練與運算!Google Cloud推出AI Hypercomputer及TPU v5p

  •  
  •  
  •  

生成式AI (gen AI) 模型發展迅速,為各行業及開發人員解決複雜的問題,並發掘新的機遇。在過去五年,生成式AI模型的參數每年增加了十倍,此增長亦令訓練、調整與推論方面的要求變得更加嚴格。Google Cloud最新推出Cloud TPU v5p,是Google迄今功能最強大、最具擴充性,且最彈性的AI加速器。

目前的大型模型擁有數千億項,甚至數兆項參數,即使使用最專業的系統,訓練時間仍十分長,甚至需要數個月的時間才能完成。此外,企業要高效地管理AI工作負載,則需設置連貫整合的AI堆疊,涵蓋最高效能的運算、儲存、網絡、軟件及開發架構。一直以來,TPU都是訓練及支援AI驅動的產品的核心,這些產品包括YouTube、Gmail、Google地圖、Google Play及Android。Google日前剛推出的Gemini就是透過TPU進行訓練及支援,是Google功能最強大的通用型AI模型。

今年11月,Google正式推出Cloud TPU v5e,相比上一代的TPU v4,Cloud TPU v5e的價格性能提升2.3倍,是Google目前最具成本效益的TPU。而Cloud TPU v5p則是Google目前功能最強大的TPU。每個TPU v5p Pod均由8,960個晶片組成,透過與Google最高頻寬的晶片間互連網路 (inter-chip interconnect, ICI) 相連,採用3D環面拓撲,提供每晶片4,800 Gbps的速度。相比TPU v4,TPU v5p的每秒浮點運算次數 (FLOPS) 提高2倍以上,高頻寬記憶體 (high-bandwidth memory, HBM) 則增加3倍。



TPU v5p專為效能、靈活性及大規模運算而設計。相比上一代的TPU v4,TPU v5p訓練大型LLM模型的速度提升2.8倍。配合第二代SparseCore,TPU v5p訓練嵌入式密集模型的速度較TPU v4快1.9倍。

除了效能上的提升,就每個Pod的總可用浮點運算次數(total available FLOPS)而言,TPU v5p的擴充能力較TPU v4高4倍。TPU v5p的FLOPS是TPU v4的兩倍,並在單一Pod中提供兩倍的晶片,使其在訓練速度上的相對效能得以大幅提升。

速度與規模同樣重要,不過單靠兩者不足以應付新型 AI/ML 應用程式及服務的需求。軟件及硬件中的元件必須相輔相成,組成一個易用、安全可靠的整合式運算系統。Google 就此已投入數十年時間進行研發,AI Hypercomputer 集結多種運算技術,能以最高效率處理現今新型的 AI 工作負載。

  • 高效能硬件:AI Hypercomputer 以超級規模的數據中心架構為基礎架構,採用高密度配置、水冷技術與Jupiter數據中心網路技術,其運算、儲存及網絡功能都能發揮最高成效。這一切都建基於以效率為核心的技術,當中採用潔淨能源,加上在水資源管理上的深度承諾均協助Google邁向無碳未來。
  • 開放式軟件:開發人員透過AI Hypercomputer即可利用開放式軟件使用Google最高效能硬件,從而調整、管理及動態協調管理硬件上的AI訓練及推論工作負載。
    • 廣泛支援多種熱門ML架構 (如 JAX、TensorFlow 及 PyTorch),全部都可即時使用。JAX及PyTorch均採用OpenXLA編譯器,有助建立精密的 LLM。XLA作為基礎骨幹,提供建立複雜的多層式模型 (在 Cloud TPU 上使用PyTorch/XLA進行Llama 2訓練與推論)。XLA會將多種硬件平台的分散式架構調整至最佳狀態,確保在開發各種AI用途的模型中易於使用又有效率 (AssemblyAI在大規模AI語音技術中運用JAX/XLA與Cloud TPU)。
    • 提供開放式及獨特的Multislice訓練及多主機推論軟件,令擴充、訓練及支援模型的工作負載變得流暢又簡單。開發人員可增加晶片數量至數萬個,以處理更大需求的AI工作負載。
    • 深度整合Google Kubernetes Engine (GKE) 及 Google Compute Engine以達至更有效率的資源管理、提供一致的運作環境、自動調節規模、自動配置節池點、自動建立查核點、自動恢復,並及時進行故障復原。
  • 彈性的消費模式:AI Hypercomputer提供多種靈活彈性及多元化的消費選擇。除承諾使用折扣 (Committed Use Discounts, CUD)、以用量計算及現貨價格等傳統選項外,AI Hypercomputer亦透過Dynamic Workload Scheduler提供專為AI工作負載度身訂造的消費模式。Dynamic Workload Scheduler提供兩項消費模式:Flex Start Mode讓用戶可享用更多資源,合符經濟效益,而Calendar Mode則適用於有較明確開始工作時間的工作負載。

  •  
  •  
  •  

benny

Benny Yeung ~ 企業IT傳媒人,經常四周穿梭科技巨企及論壇,熱愛探討新商機。性格貪玩,但喜歡閱讀沉悶的企業賺蝕數字,最重視辦事效率。