加速AI訓練與運算！Google Cloud推出AI Hypercomputer及TPU v5p

2023-12-102023-12-10 benny

生成式AI (gen AI) 模型發展迅速，為各行業及開發人員解決複雜的問題，並發掘新的機遇。在過去五年，生成式AI模型的參數每年增加了十倍，此增長亦令訓練、調整與推論方面的要求變得更加嚴格。Google Cloud最新推出Cloud TPU v5p，是Google迄今功能最強大、最具擴充性，且最彈性的AI加速器。

目前的大型模型擁有數千億項，甚至數兆項參數，即使使用最專業的系統，訓練時間仍十分長，甚至需要數個月的時間才能完成。此外，企業要高效地管理AI工作負載，則需設置連貫整合的AI堆疊，涵蓋最高效能的運算、儲存、網絡、軟件及開發架構。一直以來，TPU都是訓練及支援AI驅動的產品的核心，這些產品包括YouTube、Gmail、Google地圖、Google Play及Android。Google日前剛推出的Gemini就是透過TPU進行訓練及支援，是Google功能最強大的通用型AI模型。

Cloud TPU v5p：Google目前功能最強大、最具擴充能力的TPU加速器

今年11月，Google正式推出Cloud TPU v5e，相比上一代的TPU v4，Cloud TPU v5e的價格性能提升2.3倍，是Google目前最具成本效益的TPU。而Cloud TPU v5p則是Google目前功能最強大的TPU。每個TPU v5p Pod均由8,960個晶片組成，透過與Google最高頻寬的晶片間互連網路 (inter-chip interconnect, ICI) 相連，採用3D環面拓撲，提供每晶片4,800 Gbps的速度。相比TPU v4，TPU v5p的每秒浮點運算次數 (FLOPS) 提高2倍以上，高頻寬記憶體 (high-bandwidth memory, HBM) 則增加3倍。

TPU v5p專為效能、靈活性及大規模運算而設計。相比上一代的TPU v4，TPU v5p訓練大型LLM模型的速度提升2.8倍。配合第二代SparseCore，TPU v5p訓練嵌入式密集模型的速度較TPU v4快1.9倍。

除了效能上的提升，就每個Pod的總可用浮點運算次數（total available FLOPS）而言，TPU v5p的擴充能力較TPU v4高4倍。TPU v5p的FLOPS是TPU v4的兩倍，並在單一Pod中提供兩倍的晶片，使其在訓練速度上的相對效能得以大幅提升。

Google AI Hypercomputer：大規模操作時仍能提供頂尖效能與效率

速度與規模同樣重要，不過單靠兩者不足以應付新型 AI/ML 應用程式及服務的需求。軟件及硬件中的元件必須相輔相成，組成一個易用、安全可靠的整合式運算系統。Google 就此已投入數十年時間進行研發，AI Hypercomputer 集結多種運算技術，能以最高效率處理現今新型的 AI 工作負載。

高效能硬件：AI Hypercomputer 以超級規模的數據中心架構為基礎架構，採用高密度配置、水冷技術與Jupiter數據中心網路技術，其運算、儲存及網絡功能都能發揮最高成效。這一切都建基於以效率為核心的技術，當中採用潔淨能源，加上在水資源管理上的深度承諾均協助Google邁向無碳未來。

開放式軟件：開發人員透過AI Hypercomputer即可利用開放式軟件使用Google最高效能硬件，從而調整、管理及動態協調管理硬件上的AI訓練及推論工作負載。
- 廣泛支援多種熱門ML架構 (如 JAX、TensorFlow 及 PyTorch)，全部都可即時使用。JAX及PyTorch均採用OpenXLA編譯器，有助建立精密的 LLM。XLA作為基礎骨幹，提供建立複雜的多層式模型 (在 Cloud TPU 上使用PyTorch/XLA進行Llama 2訓練與推論)。XLA會將多種硬件平台的分散式架構調整至最佳狀態，確保在開發各種AI用途的模型中易於使用又有效率 (AssemblyAI在大規模AI語音技術中運用JAX/XLA與Cloud TPU)。
- 提供開放式及獨特的Multislice訓練及多主機推論軟件，令擴充、訓練及支援模型的工作負載變得流暢又簡單。開發人員可增加晶片數量至數萬個，以處理更大需求的AI工作負載。
- 深度整合Google Kubernetes Engine (GKE) 及 Google Compute Engine以達至更有效率的資源管理、提供一致的運作環境、自動調節規模、自動配置節池點、自動建立查核點、自動恢復，並及時進行故障復原。

彈性的消費模式：AI Hypercomputer提供多種靈活彈性及多元化的消費選擇。除承諾使用折扣 (Committed Use Discounts, CUD)、以用量計算及現貨價格等傳統選項外，AI Hypercomputer亦透過Dynamic Workload Scheduler提供專為AI工作負載度身訂造的消費模式。Dynamic Workload Scheduler提供兩項消費模式：Flex Start Mode讓用戶可享用更多資源，合符經濟效益，而Calendar Mode則適用於有較明確開始工作時間的工作負載。

2023 年 12 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31