NVIDIA 發表全新 Ampere 架構 A100 GPU 與 DGX A100 打破 5 Petaflops AI 效能和 EGX Edge 平台

lin.sinchen · 發表於 2020-5-15 16:52:13

全球籠罩在這波新冠疫情之下，NVIDIA 不得以將 GTC 2020 KeyNote 移至網路線上發表，更在自家中大秀廚藝，並於影片開頭當中感謝這些為疫情付出的醫護人員與各行各業，並提到 NVIDIA 也透過運算能力，幫助世界去解決 COVID-19 在病毒、疫苗上的運算。

這次 GTC 2020 最大亮點莫過於，針對資料中心所開發的 Ampere 架構「NVIDIA A100 GPU」。A100 汲取 NVIDIA Ampere 架構設計上的突破，為 NVIDIA 第八代 GPU 架構中，有史以來最大的效能躍進，同時整合人工智慧 (AI) 訓練與推論，效能較先前的 GPU 提升最高達 20 倍。

而 A100 可做為多執行個體 GPU 的功能讓每個 A100 GPU 最多可以劃分為 7 個獨立的執行個體以進行推論任務，而第三代的 NVIDIA NVLink 互連技術可以讓多個 A100 GPU 視為一個巨型 GPU，以執行更大型的訓練任務。

NVIDIA A100 GPU 是一項技術設計上的突破，由五大關鍵創新所推動：

Ampere 架構：A100 的核心是 NVIDIA Ampere GPU 架構，其包含超過 540 億個電晶體，是全球最大的七奈米處理器。
具備 TF32 的第三代 Tensor Cores：NVIDIA 被各界廣泛採用的 Tensor Cores 現在變得更具彈性、更快速，且更容易使用。其擴充能力包含全新用於 AI 的 TF32，無需改變任何編碼，便能讓 FP32 精度的 AI 效能提升最高達 20 倍。此外，Tensor Cores 現在還支援 FP64，針對高效能運算應用的運算力，比前一世代最高多出 2.5 倍。
多執行個體 GPU (Multi-instance GPU; MIG)：MIG 是一項全新的技術，可以讓單一 A100 GPU 最多劃分為 7 個獨立的 GPU，以便針對不同規模的工作提供不同程度的運算，進而提供最佳的利用率與極大化的投資報酬率。
第三代 NVIDIA NVLink：將 GPU 之間的高速連接速度加倍，以便在伺服器內提供高效率的效能擴充。
結構化稀疏 (Structural sparsity)：這項提升效率的全新技術，掌握 AI 數學原本稀疏的特性，讓效能加倍。
上述這些功能加總起來讓 NVIDIA A100 成為多元、要求極高的作業負載的理想選擇，其中包括 AI 訓練與推論，以及科學模擬、對話式 AI、推薦系統、基因組學、高效能資料分析、地震模型與金融預測。

此外，NVIDIA 同時宣布多項軟體堆疊的更新版本，讓應用程式開發人員得以發揮 A100 GPU 的創新功能。其包括用於加速繪圖、模擬與 AI 的 50 多種 CUDA-X 函式庫全新版本、CUDA 11、多模態對話式 AI 服務框架 NVIDIA Jarvis、深度的推薦應用框架 NVIDIA Merlin，以及 NVIDIA HPC SDK，其中包含可以協助高效能運算開發人員針對 A100 編碼進行除錯與優化的編譯器、函式庫與工具。

而搭載 Ampere 架構的全新 NVIDIA DGX A100 人工智慧 (AI) 伺服器，除了可提供 5 Petaflops 的 AI 效能，並首度把整個資料中心的運算力與功能整合至具靈活性的單一平台。即刻上市的 DGX A100 系統已全球出貨，第一筆訂單來自美國能源部 (DOE) 的阿貢國家實驗室 (Argonne National Laboratory)，該實驗室將運用該叢集的 AI 與運算力，進一步瞭解並對抗新冠病毒肺炎。

DGX A100 系統整合八個全新的 NVIDIA A100 Tensor Core GPU，提供 320GB 的記憶體以訓練最大型的 AI 資料集，與最新的高速 NVIDIA Mellanox HDR 200Gbps 互連。運用 A100 的多執行個體 (multi-instance) GPU 功能，可將每套 DGX A100 系統分割成多達 56 個執行個體，以加速處理多個小型的作業負載。結合這些功能，企業可根據需求優化其運算力與資源，並在單一且完全整合、軟體定義的平台上加速多樣化的作業負載，包括資料分析、訓練與推論。

NVIDIA 同時也揭露其次世代的 DGX SuperPOD，這是一套由 140 個 DGX A100 系統構成的叢集，可達到 700 petaflops 的 AI 運算威力。NVIDIA 藉由結合 140 個 DGX A100 系統與 NVIDIA Mellanox HDR 200Gbps InfiniBand 互連，打造出次世代的 DGX SuperPOD AI 超級電腦，提供像是對話式 AI、基因組學與自動駕駛車領域的內部研究使用。

此叢集是全球速度最快的 AI 超級電腦之一，並達成之前需要數千台伺服器才能達到的效能水準。DGX A100 企業級的架構與效能讓 NVIDIA 得以在一個月內就打造出這套系統；反觀之前若要達到此等超級電腦的等級，則必須花費數個月、甚至數年時間進行規劃並採購特定元件。

NVIDIA 同時推出 NVIDIA DGXpert 計畫，連結 DGX 客戶與 NVIDIA 的 AI 專家。此外，NVIDIA 的DGX-Ready 軟體計畫，亦協助客戶在 AI 工作流程中運用經驗證的企業級軟體。DGXperts 是嫻熟 AI 的專家，他們從計劃、落實到持續的優化，都可以協助指導客戶進行 AI 部署。這些專業人員可以協助 DGX A100 的客戶打造與維護最先進的 AI 架構。

NVIDIA 的 DGX-Ready 軟體計畫協助 DGX 的客戶快速找到並運用經 NVIDIA 測試過的第三方 MLOps 軟體，以幫助他們提升資料科學的生產力、加速 AI 工作流程，並提升可存取性與 AI 架構的運用。NVIDIA 第一批認證的計畫合作夥伴包括 Allegro AI、cnvrg.io、Core Scientific、Domino Data Lab、Iguazio 與 Paperspace。

DGX A100 技術規格

八個 NVIDIA A100 Tensor Core GPU，可達 5 petaflops 的 AI 效能，總 GPU 記憶體達 320GB，頻寬高達每秒 12.4TB。
六個 NVIDIA NVSwitch™ 互連網路，並運用第三代 NVIDIA NVLink® 技術達到每秒 4.8TB 雙向頻寬。
九個每秒 200Gb 的 NVIDIA Mellanox ConnectX-6 HDR 網路介面，提供總計每秒高達 3.6Tb 雙向頻寬。
透過 NVIDIA Mellanox 的網路內運算 (In-Network Computing) 與網路加速引擎，如 RDMA、GPUDirect®、可擴充式階層聚合 (Scalable Hierarchical Aggregation) 及 Reduction Protocol (SHARP)™，帶來最高的效能與擴充性。
15TB Gen4 NVMe 內部儲存器，比 Gen3 NVMe SSD 快 2 倍。
由 NVIDIA DGX 軟體堆疊所驅動，其中包括供 AI 與資料科學工作負載使用的優化軟體，達成極大化的效能，並讓企業在 AI 架構的投資能更快獲得回報。
由五套 DGX A100 系統組成的單一機架就可以取代供 AI 訓練與推論架構使用的資料中心，耗電量只需要二十分之一，且只佔原本二十五分之一的空間，而成本更只有原來的十分之一。

NVIDIA DGX A100 系統售價美金 199,000 元起，並可透過 NVIDIA 的全球經銷合作夥伴訂購。包括 DDN Storage、戴爾科技 (Dell Technologies)、IBM、NetApp、Pure Storage 與 Vast 等儲存技術供應商，都計劃把 DGX A100 整合進他們的產品，其中包括基於 NVIDIA DGX POD 與 DGX SuperPOD 參考架構的產品。NVIDIA DGX-Ready 的資料中心夥伴在全球 26 個國家、超過 122 個地點提供代管服務，以協助追求高成本效益設備的客戶代管 DGX 架構。DGX A100 的客戶將能利用這些服務，在驗證過的世界級資料中心設施內儲存與存取 DGX A100 架構。

另一款 EGX A100 是專門設計給大型現成商用伺服器使用，以及用於微邊緣伺服器的小型 EGX Jetson Xavier NX，為邊緣運算帶來高效能且安全的人工智慧 (AI) 處理。借助 NVIDIA EGX Edge AI 平台，醫院、商店、農場與工廠可以即時處理與保護來自數兆個邊緣感測器的大量串流資料。此一平台讓遠端安全部署、管理與更新伺服器群變成可能。

EGX A100 融合加速器與 EGX Jetson Xavier NX 微邊緣伺服器的設計旨在滿足不同的尺寸、成本與效能需求。例如搭載 EGX A100 的伺服器可以管理機場中的數百架攝影機，而 EGX Jetson Xavier NX 則是用來管理便利商店中少數的攝影機。雲端原生的支援將確保整個 EGX 產品線都能使用相同優化的 AI 軟體，以便輕易地打造與部署 AI 應用。

EGX A100 是第一個基於 NVIDIA Ampere 架構的邊緣 AI 產品。隨著 AI 逐漸朝向邊緣化移動，企業組織可以將 EGX A100 整合在他們的伺服器中，以便即時處理並保護從邊緣感測器而來的大量串流資料。其結合了 NVIDIA Ampere 架構突破性的運算效能，以及 NVIDIA Mellanox® ConnectX-6 Dx SmartNIC 的加速網路與關鍵安全能力，讓標準與專用的邊緣伺服器，轉變成安全且雲端原生的 AI 超級電腦。

EGX A100 搭載 NVIDIA Mellanox ConnectX-6 Dx 網路卡，最高可以接收 200 Gbps 的資料，並直接將資料送回 GPU 記憶體，以進行 AI 或 5G 訊號處理。在導入 NVIDIA Mellanox 供電信業者使用的時間觸發傳輸技術後 (5T for 5G) ，EGX A100 是雲端原生、軟體定義的加速器，可以處理對延遲最為敏感的 5G 使用案例。這為必須作出即時智慧決定的地方如商店、醫院與廠區，提供終極的 AI 與 5G 平台。

EGX Jetson Xavier NX 是世界上體積最小、效能最強大的 AI 超級電腦，適用於微伺服器與邊緣人工智慧物聯網 (AIoT) 盒，目前我們的生態系合作夥伴已提供超過 20 個可用的解決方案。它將 NVIDIA Xavier 系統單晶片 (SoC) 的效能整合至信用卡大小的模組中。運行於 EGX 雲端原生軟體堆疊的 EGX Jetson Xavier NX，可以快速處理來自多個高解析感測器的串流資料。

此一省電模組在耗電 15 瓦情況下可以提供高達 21 TOPS 的運算效能，或在耗電 10 瓦情況下達到 14 TOPS 的運算效能。因此，EGX Jetson Xavier NX 為需要更高效能來支援 AI 工作負載，但尺寸、重量、功耗或成本都受限的嵌入式邊緣運算裝置，開啟機會的大門。

NVIDIA 應用程式架構包含供醫療保健使用的 Clara、供電信業使用的 Aerial、供對話式 AI 使用的 Jarvis、供機器人使用的 Isaac，以及供智慧城市、零售、運輸與更多產業使用的 Metropolis。它們可以個別或一起使用，為各式各樣的邊緣案例開啟全新的可能性。

隨著整個 NVIDIA EGX 產品線都有可用的雲端原生技術支援，智慧機器製造商與 AI 應用的開發人員，可以在針對機器人、智慧城市、醫療保健與工業物聯網等應用的嵌入式與邊緣裝置上，打造並部署高品質、軟體定義的功能。

想要一窺 NVIDIA CEO 黃仁勛風采的，可參考 NVIDIA YouTube 頻道中的 NVIDIA GTC 2020 Keynote。

source: nvidia.com.tw、nvidia.com.tw、nvidia.com.tw

文章標籤：

文章分享：

+ MORE精選文章：

相關帖子

NVIDIA AI 高峰會聚焦前所未見的能源 ...

Elon Musk 在 19 天內設置了 100,000 ...

英特爾研發費用超英偉達和AMD總和， ...

+ MORE活動推薦：

Micron Crucial PRO D5 6400超頻版玩家開

O11 VISION COMPACT 玩家開箱體驗分享活動

2024 三星SD記憶卡玩家開箱體驗分享活動

體驗極速WiFi 7！MSI Roamii BE Lite Mesh

[業界新聞] NVIDIA 發表全新 Ampere 架構 A100 GPU 與 DGX A100 打破 5 Petaflops AI 效能和 EGX Edge 平台