新GPU執行個體Amazon EC2 P5節省4成訓練成本

2023-07-31 Chan Billy

亞馬遜旗下公司Amazon Web Services近日在紐約峰會上宣布 Amazon Elastic Compute Cloud (EC2) P5執行個體正式可用。這是一款新一代GPU執行個體，由最新的NVIDIA H100 Tensor Core GPU驅動，可以滿足客戶在運行人工智能、機器學習和高性能運算工作負載時對高性能和高擴展性的需求。與上一代基於GPU的執行個體相比，Amazon EC2 P5執行個體可以將訓練時間縮減6倍 (從數天縮短到數小時)，從而幫助客戶節省高達40%的訓練成本。

Amazon EC2 P5執行個體提供8個NVIDIA H100 Tensor Core GPU，具有640 GB高帶寬GPU內存，同時提供第三代AMD EPYC處理器、2TB系統內存和30 TB本地NVMe儲存。Amazon EC2 P5執行個體還提供3200 Gbps的聚合網絡頻寬並支援GPUDirect RDMA，從而能夠繞過CPU進行節點間通訊，實現更低的延遲和高效的橫向擴展性能。

AWS與NVIDIA攜手開發下一代基礎設施

AWS和NVIDIA在今年3月宣布了一項多方合作，構建全球最具可擴展性且按需要付費的人工智能基礎設施，以便訓練日益複雜的大語言模型和開發生成式AI應用程式。

當時，AWS預先發布了由NVIDIA H100 Tensor Core GPU驅動的Amazon EC2 P5執行個體，可為構建和訓練更大規模的機器學習模型提供高達20 exaFLOPS的運算能力。AWS和NVIDIA合作十多年來成果豐富，推出了包括支持視覺運算、人工智能和高性能運算集群的各種GPU執行個體，如CG1執行個體 (2010 年)、G2 (2013 年)、P2 (2016 年)、P3 (2017 年)、G3 (2017 年)、P3dn (2018 年)、G4 (2019 年)、P4 (2020 年)、G5 (2021 年) 和P4de (2022 年) 執行個體。

現在，機器學習模型的規模已經達到數萬億參數，這種複雜性大大增加了客戶訓練模型所需的時間，例如，最新的大語言模型訓練時間長達數月之久。類似的趨勢也出現在高性能運算領域。隨著高性能運算客戶數據收集準確度的提高以及數據集達到EB級規模，客戶已在尋找解決日益複雜應用程式的更快方法。

亞馬遜旗下公司Amazon Web Services近日在紐約峰會上宣布 Amazon Elastic Compute Cloud (EC2) P5執行個體正式可用。

訓練時間縮短6倍

Amazon EC2 P5執行個體非常適合訓練和運行越來越複雜的大語言模型和電腦視覺模型，以滿足最苛刻的運算密集型生成式AI應用的需求，包括問答、編碼生成、影片和圖像生成、語音識別等。與上一代基於GPU的執行個體相比，Amazon EC2 P5執行個體在這些應用中的訓練時間縮短了6倍。那些可以在工作負載中使用較低精度 FP8 數據類型的客戶，例如使用Transforme 框架的語言模型，將通過NVIDIA Transformer Engine的支援獲得高達6倍的性能提升。

高性能運算客戶通過使用Amazon EC2 P5執行個體可以在藥物開發、地震分析、天氣預報和金融建模等領域更大規模地部署高要求的應用程式。此外，對於使用基於動態規劃 (Dynamic Programming) 算法進行基因組測序或加速數據分析等應用的客戶，Amazon EC2 P5 將通過新的 DPX 指令集提供支援。

提供先進的橫向擴展功能

Amazon EC2 P5執行個體為多節點分佈式訓練和緊密耦合的高性能運算工作負載提供先進的橫向擴展功能，其使用的第二代Elastic Fabric Adapter (EFA) 網絡設備提供高達3200 Gbps的網絡速度，為 Amazon EC2 P4d執行個體的8倍。

為了滿足客戶對大規模和低延遲的需求，Amazon EC2 P5執行個體部署在第二代Amazon EC2 UltraClusters中，該集群目前可在超過2萬個NVIDIA H100 Tensor Core GPU上為客戶提供更低的延遲。作為雲端中最大規模的機器學習基礎設施之一，Amazon EC2 UltraClusters中的Amazon EC2 P5執行個體可提供高達20 exaFLOPS的聚合運算能力。

Amazon EC2 UltraClusters中的Amazon EC2 P5執行個體可提供高達20 exaFLOPS的聚合運算能力。

Amazon EC2 UltraClusters使用了Amazon FSx for Lustre，這是一種完全託管的共享儲存，構建在常用的高性能並行文件系統上。客戶通過Amazon FSx for Lustre ，可以按需要大規模快速處理海量數據集，並實現亞毫秒級延遲。Amazon FSx for Lustre的低延遲和高吞吐量特性經過優化，可在Amazon EC2 UltraCluster上為深度學習、生成式AI和高性能運算工作負載提供支援。

Amazon FSx for Lustre可以為Amazon EC2 UltraCluster中的GPU和機器學習加速器持續提供數據，從而加速最苛刻的工作負載，包括大語言模型訓練、生成式AI推理，以及基因組學和金融風險建模等高性能運算負載。