Intel Vision 活動 Habana 展示 Gaudi2 訓練吞吐量是 Nvidia A100 80GB 的 2 倍-Intel Vision,Habana,Gaudi2

lin.sinchen 發表於 2022-5-11 15:36:15

Intel Vision 活動 Habana 展示 Gaudi2 訓練吞吐量是 Nvidia A100 80GB 的 2 倍

https://news.xfastest.com/wp-content/uploads/2022/05/Intel3-1.jpg

在 Intel Vision 活動中，Intel 旗下 Habana Labs 推出 Gaudi2 處理器，這是用於訓練的第 2 代 Gaudi 處理器，並針對推論部署推出即將上市的 Greco 處理器，其為 Goya 處理器的後續產品。這些處理器專為 AI 深度學習應用而設計，建立在 Habana 的高效率架構之上並採用 7nm 製程打造，能夠在資料中心當中，針對電腦視覺與自然語言處理的模型訓練與推論效能，提供客戶更高的效能。

活動當下，Habana 展示 Gaudi2 於電腦視覺—ResNet-50（v1.1）和自然語言處理—BERT Phase-1 和 Phase-2 的訓練吞吐量效能，其工作負載量幾乎是 Nvidia A100 80GB 的 2 倍。

Gaudi2：專為深度學習訓練所設計

對於資料中心客戶而言，資料集和AI工作負載的規模和複雜性不斷提升，讓訓練深度學習模型工作越來越耗費時間與成本。Gaudi2 的設計，能夠為雲端運算和企業現場的客戶，帶來改良後的深度學習效能與效率。

為提升模型的準確性和時近性（recency），客戶需要更頻繁的訓練。根據 IDC 的資料，於 2020 年接受調查的機器學習（ML）從業者當中，74% 的人對他們的模型進行 5 到 10 次的訓練迭代，超過 50% 的人每週或是更頻繁地重新建立模型，超過 26% 的人每日甚至每小時就重建模型。 56% 的受訪者認為，他們的組織汲取 AI 所能提供的洞察力、創新和強化終端使用者體驗，訓練成本為其最大障礙。Gaudi 平台解決方案包含第 1 代 Gaudi 和 Gaudi2，專為解決這項日益成長的需求而誕生。

https://news.xfastest.com/wp-content/uploads/2022/05/圖片1.png https://news.xfastest.com/wp-content/uploads/2022/05/圖片2.png

https://news.xfastest.com/wp-content/uploads/2022/05/圖片3.png https://news.xfastest.com/wp-content/uploads/2022/05/圖片4.png

為深度學習而生，如今更提升至新境界

Habana Gaudi2 處理器顯著地提升訓練效能，其建立在同樣高效率的第 1 代 Gaudi 架構之上，讓客戶在雲端使用 Amazon EC2 DL1 執行個體，以及在現場使用 Supermicro Gaudi Training Server 時，相較現有的GPU解決方案，其價格效能比值要高出 40%。

從第 1 代 Gaudi 到 Gaudi2，架構上的進步包含：

[*]製程技術從 16nm 提升至7nm
[*]導入新的資料類型，包含在Matrix Multiplication Engine（MME）和Tensor Processor Core 運算引擎當中的 FP8
[*]Tensor Processor Core 從 8 個提升至 24 個
[*]為了卸載主機子系統的負擔，晶片整合媒體處理引擎
[*]封裝記憶體容量從 32GB 變為 3 倍至 96GB，HBM2E 頻寬達 45TB/sec
[*]雙倍 SRAM 容量達 48MB
[*]為了在產業標準上提供高效率的垂直擴充（scale-up）和水平擴充（scale-up），內建的 RDMA over Converged Ethernet（RoCE2）從整合 10 個 NIC 提升至 24 個。
[*]

100% AI 設計，200% 效能表現

希望增加訓練時間和營運效率的客戶，藉由立即可用（out-of-the-box）的各項訓練指標來評估深度學習的效能和價值。在 Intel Vision，Habana 向客戶展現相對於市場上其它領先解決方案，Gaudi2 處理器的效能。下列圖表是熱門的電腦視覺和自然語言處理模型的訓練結果，與其它解決方案所公布的指標比較。

相較使用相同製程節點的 A100 GPU，Gaudi2 提供明顯的訓練效能領先幅度，下列關鍵工作負載所展示的效能比較約為2倍，其中包含與框架一同整合的全套軟體。這些結果顯示出專門設計的 Gaudi2 深度學習加速框架，從根本上而言更具效率。

網路容量、靈活性、效率

每個 Gaudi2 處理器都整合了 24 個 100-Gigabit RoCE 連接埠，顯著地放大訓練頻寬。

[*]垂直擴充：每個 Gaudi2 所具備的 21 個連接埠，專門用來連結內含 8 張 HLS-Gaudi2 伺服器內部的其它7個處理器，採用全速連結、無阻塞組態。
[*]水平擴充：每個處理器所具備的3個連接埠，專門用於水平擴充，於 8 張 Gaudi 伺服器提供 4Tbps 的網路吞吐量。
[*]符合 OCP OAM 標準：為了簡化客戶的系統設計，Habana 提供符合 OCP 規格的 Universal Baseboard（UBB）標準產品。
[*]方便且靈活使用：藉由在晶片上整合產業標準 RoCH，客戶能夠輕鬆地擴展和配置 Gaudi2 系統，符合他們的深度學習叢集需求，能夠從 1 個 Gaudi2 擴展至數千個。
[*]建立系統選擇：透過在廣泛使用的產業標準乙太網路連結性上打造系統，Gaudi2 讓客戶可以從一系列乙太網路交換器和相關網路設備中進行選擇，進而節省成本。
[*]整合效率：晶片整合網路介面控制器（NIC）連接埠，顯著地降低整體零件成本。

HLS-Gaudi2伺服器

除了內含 8 片 Gaudi2 之外，HLS-Gaudi2 伺服器還配備雙插槽 Intel® Xeon®可擴充處理器子系統。 Habana 提供此類伺服器讓客戶評估 Gaudi2，同時與系統 OEM 合作，為終端客戶的部署帶來市場解決方案。

Gaudi2資料中心的進展

迄今為止，在以色列的 Habana Gaudi2 資料中心已部署 1000 台 HLS-Gaudi2，用來支援 Gaudi2 軟體最佳化的研發，並為即將推出的 Gaudi®3 處理器的近一步發展提供參考。

更多內容：關於Habana® Gaudi®2的更多資訊，包含推出新聞等，請造訪Intel Newsroom、Habana 訓練解決方案、Habana Gaudi2白皮書和深入研究Habana® Gaudi®處理器影片。

頁: [1]

XFastest 最夯的電腦領域's Archiver

Intel Vision 活動 Habana 展示 Gaudi2 訓練吞吐量是 Nvidia A100 80GB 的 2 倍