Columns

Meta因應AI時代改造基礎架構

  •  
  •  
  •  

隨著我們在AI研究方面取得突破、推出更多適用於Meta旗下應用程式的先進AI應用程式和體驗,以及塑造我們對元宇宙的長期願景,Meta的AI運算需求在未來十年內將大幅增長。

AI已經成為Meta產品的核心,不但能改善個人化技術、提高產品的安全性和公平性,以及創造更豐富的體驗,還能協助企業觸及他們最重視的受眾。我們亦正在調整編碼的方式,包括採用Code Compose,這是一款在Meta內部開發的生成式AI編碼輔助工具,是提高開發人員在整個軟件開發生命周期工作效率的關鍵工具。透過重新思考如何在基礎設施中展現創新精神,我們開始建構一個具有擴展性的基礎,以便充分善用近期在生成式 AI 等領域興起的各種商機,並長線為元宇宙帶來全新的AI驅動體驗。

AIMeta基礎架構的核心

Meta自2010年開始興建第一個數據中心以來,我們已經建立了一個覆蓋全球的基礎架構,如今已成為Meta旗下應用程式的引擎,每天為超過30億人服務。我們的基礎架構的新進展包括:

  • MTIA (Meta訓練與推理加速器,Meta Training and Inference Accelerator):MTIA是Meta首個自家開發、針對處理訓練和推論工作的定制化加速器晶片系列。MTIA提供了比CPU更強大的運算能力和效率,並因應我們的內部工作而定制。透過部署MTIA晶片和GPU,無論是哪一項工作,我們都能提供高效能、降低延遲和提升處理效率。
  • 新一代數據中心:Meta的新一代數據中心設計不但能支援我們目前的產品,同時為未來幾代AI硬件提供訓練和推論能力。這個新數據中心的設計將會以AI為本,支援液態冷卻(liquid-cooled)AI硬件及連接數千個AI晶片的高效能AI網絡,實現數據中心規模的AI訓練集群。此外,不但是開發的速度和成本效益會有所提升,也能彌補其他新硬件 (例如 Meta 第一個由內部開發的ASIC解決方案MSVP,用以應付Meta不斷增加的影片工作量) 的不足之處。
  • Research SuperCluster (RSC) AI超級電腦:Meta的RSC是全球最快的AI超級電腦之一,可以訓練新一代大型AI模型,來支援新的擴增實境工具、內容理解系統、實時翻譯技術等。RSC擁有16,000個GPU,全部可通過Clos三層網絡結構中使用,為2,000個訓練系統提供完整的頻寬。在過去一年中,RSC一直在為像LLaMA這樣的研究項目提供動力,LLaMA是Meta建立並在今年較早時發布的大型語言模型。
Meta自2010年開始興建第一個數據中心以來,我們已經建立了一個覆蓋全球的基礎架構,每天為超過30億人服務。

端到端整合堆疊 (end-to-end integrated stack) 的好處

由於基礎架構大部分都採用度身訂造的設計,我們可以優化從實體層面、軟件層面再到實際用戶體驗的端對端體驗。從數據中心、伺服器硬件到維持各項功能運作的機器系統,一切都是由我們設計、開發和操作。由於我們掌握了從頂層到底層的整個架構,因此我們可以根據特定需求進行個人化設計。例如在能夠減輕工作量的前提下,我們可以輕鬆組合 GPU、CPU、網絡和儲存空間。如果這意味著我們需要不同的電源或冷卻解決方案,我們也可以重新構思該設計,並將其視為整個緊密的系統的一部分。

這些新進展在未來只會變得更加重要。 在未來十年裡,我們將看到芯片設計的專業化和定制化、針對特定工作負載的AI 基礎設施、用於大規模部署的新系統和工具,以及產品和設計支持效率的提升。 這一切都將讓我們能夠建構基於最新研究而且越趨複雜的模型,並讓世界各地的人都能接觸到這新技術。

Meta一直專注於為基礎架構願景帶來長遠價值和影響力。我們深信,在過去的成就基礎上,擁有世界一流基礎架構的Meta將在未來十年及以後的AI領域保持領先地位。我們在本文中提到的工作,對於目前Meta旗下應用程式和未來的元宇宙計劃,都將產生重大影響。

作者簡介:Meta基礎設施總監Santosh Janardhan

Santosh Janardhan支援負責開發和運作硬體、網路、軟件和數據中心的團隊;所有Meta服務都在此基礎上運作。Santosh自2009年以來就任職於本公司。在加入Meta之前,Santosh曾在YouTube、Google和PayPal任職期間領導資料庫和儲存空間團隊。

  •  
  •  
  •  

benny

Benny Yeung ~ 企業IT傳媒人,經常四周穿梭科技巨企及論壇,熱愛探討新商機。性格貪玩,但喜歡閱讀沉悶的企業賺蝕數字,最重視辦事效率。