News

IBM光學技術關鍵突破,生成式AI迎來「光速時代」

  •  
  •  
  •  

IBM發佈了其在光學技術方面的突破性研究成果,有望顯著提高數據中心訓練和運行生成式AI模型的效率。IBM研究人員開發的新一代光電共封裝 (co-packaged optics,CPO) 工藝,通過光學技術實現數據中心內部的光速連接,為現有的短距離光纜提供了有力補充。通過設計和組裝首個宣佈成功的聚合物光波導 (PWG),IBM研究人員展示了光電共封裝技術將如何重新定義計算行業在芯片、電路板和服務器之間的高帶寬數據傳輸。

今天,光纖技術已經被廣泛用於遠距離的高速數據傳輸,實現了「以光代電」來管理全球幾乎所有的商業和通信傳輸。雖然數據中心的外部通信網絡已經採用光纖,但其內部的機架仍然主要使用銅質電線進行通信。通過電線連接的GPU加速器可能有一半以上的時間處於閒置狀態,在大型分布式訓練過程中需要等待來自其他設備的數據,導致高昂的成本和能源浪費。

IBM發布新一代光電共封裝原型,可加快數據中心內的通訊速度。

IBM研究人員發現了一種將光學的速度和容量引入數據中心的新方法。在其最新發表的一篇論文中,IBM展示了其全球首發、可實現高速光學連接的光電共封裝原型。這項技術可大幅提高數據中心的通信帶寬,最大限度地減少GPU停機時間,同時大幅加快AI工作速度。該創新將實現以下新突破:

  • 降低規模化應用生成式AI的成本:與中距電氣互連裝置相比,能耗降低5倍以上[1],同時將數據中心互連電纜的長度從1米延長至數百米。
  • 提高AI模型訓練速度:與傳統的電線相比,使用光電共封裝技術訓練大型語言模型的速度快近五倍,從而將標準大語言模型的訓練時間從三個月縮短到三周;用於更大的模型和更多的GPU,性能將獲得更大提升。[2]
  • 大幅提高數據中心能效:在最新光電共封裝技術的加持下,每訓練一個AI模型所節省的電量,相當於5000個美國家庭的年耗電量總和。[3]
IBM高級副總裁、IBM研究院院長Dario Gil表示:生成式AI需要越來越多的能源和處理能力,數據中心必須隨之升級換代,
而光電共封裝技術可以幫助數據中心從容面向未來。

IBM高級副總裁、IBM研究院院長Dario Gil表示:「生成式AI需要越來越多的能源和處理能力,數據中心必須隨之升級換代,而光電共封裝技術可以幫助數據中心從容面向未來。隨著光電共封裝技術取得突破,光纖電纜將大幅提升數據中心的數據傳輸效率,芯片之間的通信、AI工作負載的處理也會更高效,我們將進入一個更高速、更可持續的新通信時代。」

得益於近年芯片技術的進步,芯片上可以容納更多、更密集的晶體管;比如,IBM的2納米芯片技術可在單一芯片上植入500多億個晶體管。光電共封裝技術旨在擴大加速器之間的互連密度,幫助芯片製造商在電子模組上添加連接芯片的光通路,從而超越現有電子通路的限制。IBM的論文所述的新型高帶寬密度光學結構和其他創新成果,比如,通過每個光通道傳輸多個波長,有望將芯片間的通信帶寬提高至電線連接的80倍。

與目前最先進的光電共封裝技術相比,IBM的創新成果可以使芯片製造商在硅光子芯片邊緣增加六倍數量的光纖即所謂的「鬢發密(beachfrontdensity)」。每根光纖的寬度約為頭髮絲的三倍,長度從幾釐米到幾百米不等,可傳輸每秒萬億比特級別的數據。IBM團隊採用標準封裝工藝,在50微米間距的光通道上封裝高密度的聚合物光波導 (PWG),並與硅光子波導絕熱耦合。

論文還指出,上述光電共封裝模塊採用50微米間距的聚合物光波導,首次通過了製造所需的所有壓力測試。這些模組需要經受高濕度環境、-40°C 至125°C的溫度以及機械耐久性測試,以確保光互連裝置即使彎曲,也不會斷裂或丟失數據。此外,研究人員還展示了18微米間距的聚合物光波導技術:將四個聚合物光波導設備堆疊在一起,可以實現多達128個通道的連接。

IBM Corporation logo.

面對日益增長的AI性能需求,光電共封裝技術開創了一條新的通信途徑,並可能取代從電子到光學的模塊外通信。這一技術突破延續了IBM在半導體創新方面的領導地位,包括全球首個2納米芯片技術、首個7納米和5納米工藝技術、納米片晶體管、垂直晶體管 (VTFET)、單芯片DRAM和化學放大光刻膠等。

該項目的設計、建模和模擬工作在美國紐約州奧爾巴尼完成,其原型組裝和模塊測試則由位於加拿大魁北克省布羅蒙的IBM實驗室承接,後者是北美地區最大的芯片組裝和測試基地之一。

  • 從每比特5微焦降至不到1微焦。
  • 數據基於使用行業標準GPU和互連裝置對700億參數大語言模型的訓練。
  • 數據基於使用行業標準GPU和互連裝置對超大型大語言模型(如GPT-4)的訓練。


  •  
  •  
  •