Qualcomm的Cloud AI 100平台開始出樣：75W實現400TOPS運算能力

sxs112.tw 發表於 2020-9-17 10:09:27

Qualcomm的Cloud AI 100平台開始出樣：75W實現400TOPS運算能力

AnandTech報導稱Qualcomm去年宣布的Cloud AI 100推理晶片平台，現已投產並向客戶出樣，預計2021上半年可實現商業發貨。雖然更偏向於“紙上發布”，且未能披露硬體的更多細節，但藉助其在行動SoC世界的專業知識，這也是該公司首次涉足數據中心AI推理加速器業務、並將之推向企業市場。

隨著晶片開始出樣，Qualcomm Cloud AI 100 推理晶片終於從實驗室走向了現實，並且披露了有關其架構設計、性能功耗目標在內的諸多細節。據悉Qualcomm為商業化提供了三種不同的封裝形式，包括成熟的PCIe 4.0 x8匯流排（在75W TDP 上實現400 TOPS 算力）、以及DM.2和DM.2e（25W / 15W TDP）。

DM.2的外形類似於彼此相鄰的兩個M.2連接器，在企業市場上頗受歡迎。DM.2e 則是體型更小，封裝功耗也更低。

從架構的角度來看，該設計借鑒了Qualcomm在驍龍行動SoC上使用的神經處理單元（NPU）的豐富經驗，但仍是採用一種完全針對企業工作負載而優化的獨特架構設計。

與當前的通用計算硬體（CPU / GPU / FPGA）相比，專用型AI 設計的最大優勢，在於能夠實現“傳統”平台難以企及的更高的性能和能效目標。

性能數據方面Qualcomm拿目前業內常用的解決方案進行了對比，包括Intel Goya和NVIDIA T4推理加速器（採用砍了一刀的TU104 GPU），每W每秒的推理能力為ResNet-50 。

據說Cloud AI 100在每W性能上較競品實現了重大飛越，且Qualcomm在另一幅圖表中展示了一個相對公平的比較。

有趣的說法是其甚至能夠在75W的PCIe設計中內擊敗NVIDIA Ampere架構的250W A100加速器。且在功耗降低25% 的情況下，性能還較Intel Goya 加速器翻了一倍。

這樣的性能數據，讓許多人覺得難以置信，不過從Cloud A100 的晶片規格來看，事情其實並不簡單。該晶片包含了16組AI核心，和達成400 TOPS 的INT8推理吞吐量。

輔以4路@64-bit 的LPDDR4X-4200（2100MHz）的記憶體控制器，每個控制器管著4個16-bit 通道，總系統頻寬達134GB/s 。如果你對當前的AI加速器設計比較熟悉，就知道它與NVIDIA A100和Intel Goya等推理加速器競品的頻寬有較大差距，因為後者擁有高頻寬快取（HBM2）和高達1-1.6TB/s的頻寬。即便如此，Qualcomm還是設法為Cloud AI 100平台配備了144MB的片上SRAM高速快取，以達成盡可能高的儲存流量。

Qualcomm承認在工作負載的記憶體空間佔用超過片上SRAM 的情況下，該架構的性能將有所不同。但對於目標客戶來說，這樣的平衡設計，仍是有意為之。後續該公司還展望了更大的核心、以及在多個Cloud AI 100 加速器之間橫向發展。

消息來源

頁: [1]

XFastest 最夯的電腦領域's Archiver

Qualcomm的Cloud AI 100平台開始出樣：75W實現400TOPS運算能力