2024-12-23

NVIDIA與AWS正合作推動設計全球最快的GPU驅動AI超級電腦 ! 計劃代號:Project Ceiba

NVIDIA與AWS正合作推動設計全球最快的GPU驅動AI超級電腦 ! 計劃代號:Project Ceiba

記者陳欣欣 / 台北報導

科技巨擘聯手推進生成式AI發展 開創人工智慧新時代

在生成式人工智慧(Generative AI)的浪潮中,雲端運算龍頭AWS和晶片巨擘NVIDIA攜手合作,推出一系列革命性的基礎設施、軟體和服務。這項策略聯盟展現了兩家科技巨擘的決心,要為機器學習的先驅者們提供所需的運算效能,共同推動生成式AI技術的創新發展。

首款結合超級晶片與超級叢集的AI超級電腦

AWS與NVIDIA的合作首先推出了首款結合NVIDIA Grace Hopper Superchip超級晶片與AWS UltraCluster擴充技術的AI超級電腦。這款超級電腦的核心是NVIDIA GH200 NVL32多節點平台,運用NVLink與NVSwitch技術連結了32個Grace Hopper Superchip超級晶片,組成一個強大的執行個體。

這個平台將以Amazon EC2執行個體的形式上線營運,連結AWS強大的網路(EFA)、先進的虛擬化(Nitro System)和超大規模叢集(UltraClusters)。這樣的配置讓共同客戶能夠擴充至數千顆GH200超級晶片的規模,提供極佳的運算效能,為生成式AI應用的發展奠定了堅實的基礎。

NVIDIA DGX Cloud首次在AWS提供AI訓練即服務

除了超級電腦之外,NVIDIA與AWS還將在AWS上推出NVIDIA DGX Cloud這項AI訓練即服務(AI-training-as-a-service)方案。這個方案將是首個配置GH200 NVL32的DGX Cloud,為開發者提供單一執行個體中最多的共用記憶體。

運用AWS雲端上的DGX Cloud,開發者能夠加速含有超過1兆參數的尖端生成式AI與大型語言模型的訓練。這無疑將大幅加快生成式AI的研發進程,為創新應用的落地帶來更多動能。

聯手設計全球最快的GPU驅動AI超級電腦

亞馬遜總裁暨執行長 Andy Jassy 表示:「我們與 NVIDIA 的深度合作可以追溯到 13 年前,當時我們在 AWS 上推出了世界上第一個 GPU 雲端實例。今天,我們在雲端的任何地方提供最廣泛的 GPU 解決方案,支援世界上技術最先進的加速工作負載。這就是為什麼新的NVIDIA Blackwell GPU 將在 AWS 上運作得如此出色,也是 NVIDIA 選擇 AWS 共同開發 Project Ceiba 的原因,該專案將 NVIDIA 的下一代 Grace Blackwell 超級晶片與 AWS Nitro System 先進的虛擬化技術和超高速 Elastic Fabric Adapter 網路結合,用於 NVIDIA 自己的 AI 研發。 透過 AWS 和 NVIDIA 工程師的共同努力,我們將繼續共同創新,使 AWS 成為任何人在雲端中運行 NVIDIA GPU 的最佳場域。」

在最新公開的Project Ceiba項目中,NVIDIA與AWS正合作推動設計全球最快的GPU驅動AI超級電腦。

這部開創先河的超級電腦配置了20,736顆NVIDIA Blackwell GPU,能處理414 exaflops等級的AI運算速度。這樣的超級運算能力將推動NVIDIA進行全新生成式AI的創新,為未來的發展奠定堅實的基礎。

全新Amazon EC2執行個體加速生成式AI工作負載

為了進一步加速生成式AI工作負載,AWS將推出三款全新的Amazon EC2執行個體:P5e、G6和G6e。其中,P5e執行個體配置了NVIDIA H200 Tensor Core GPU,專門瞄準大規模與尖端的生成式AI和HPC高效能運算工作負載。

而G6和G6e執行個體則分別配置了NVIDIA L4和L40S GPU,適用於AI微調、推論、繪圖、影片等廣泛的應用。特別值得一提的是,G6e執行個體特別適合開發3D工作流程、數位分身,以及其他使用NVIDIA Omniverse的生成式AI 3D應用。

AWS雲端上運行的NVIDIA軟體助力生成式AI發展

除了硬體基礎設施之外,NVIDIA還發表了在AWS雲端上運行的軟體,以加速生成式AI的研發。其中,NVIDIA NeMo Retriever微服務提供了多項新工具,能夠創造高精準度的聊天機器人,以及運用加速語意檢索技術的歸納工具。

此外,在Amazon SageMaker服務上運行的BioNeMo計畫,將在AWS托管的NVIDIA DGX Cloud上執行,讓製藥企業能夠運用自己的資料簡化與加速模型訓練,藉此加快新藥開發的進程。

AWS也正運用NVIDIA NeMo框架訓練新一代的Amazon Titan大型語言模型,而Amazon Robotics則已開始運用NVIDIA Omniverse Isaac打造數位分身,在虛擬化環境中推動自主倉庫的自動化、最佳化和規劃,再將結果部署到真實環境中。

透過這些軟體與服務的支援,生成式AI的發展將獲得更大的動能,為各個領域帶來更多創新應用。AWS與NVIDIA的策略合作無疑將成為推動生成式AI創新的重要力量,引領我們邁向全新的人工智慧時代。

NVIDIA 創辦人暨執行長黃仁勳表示:「生成式 AI 正改革各種雲端作業的負載,為多元內容創作導入加速的運算動能。本著為每位客戶提供高成效且最先進的生成式 AI的共同目標, NVIDIA 與 AWS 攜手開發 AI 基礎設施、加速函式庫、基礎模型、以及生成式 AI 服務。」