AnandTech報導稱Qualcomm去年宣布的Cloud AI 100推理晶片平台,現已投產並向客戶出樣,預計2021上半年可實現商業發貨。雖然更偏向於“紙上發布”,且未能披露硬體的更多細節,但藉助其在行動SoC世界的專業知識,這也是該公司首次涉足數據中心AI推理加速器業務、並將之推向企業市場。
隨著晶片開始出樣,Qualcomm Cloud AI 100 推理晶片終於從實驗室走向了現實,並且披露了有關其架構設計、性能功耗目標在內的諸多細節。據悉Qualcomm為商業化提供了三種不同的封裝形式,包括成熟的PCIe 4.0 x8匯流排(在75W TDP 上實現400 TOPS 算力)、以及DM.2和DM.2e(25W / 15W TDP) 。
DM.2的外形類似於彼此相鄰的兩個M.2連接器,在企業市場上頗受歡迎。DM.2e 則是體型更小,封裝功耗也更低。
從架構的角度來看,該設計借鑒了Qualcomm在驍龍行動SoC上使用的神經處理單元(NPU)的豐富經驗,但仍是採用一種完全針對企業工作負載而優化的獨特架構設計。
與當前的通用計算硬體(CPU / GPU / FPGA)相比,專用型AI 設計的最大優勢,在於能夠實現“傳統”平台難以企及的更高的性能和能效目標。
性能數據方面Qualcomm拿目前業內常用的解決方案進行了對比,包括Intel Goya和NVIDIA T4推理加速器(採用砍了一刀的TU104 GPU),每W每秒的推理能力為ResNet-50 。
據說Cloud AI 100在每W性能上較競品實現了重大飛越,且Qualcomm在另一幅圖表中展示了一個相對公平的比較。
有趣的說法是其甚至能夠在75W的PCIe設計中內擊敗NVIDIA Ampere架構的250W A100加速器。且在功耗降低25% 的情況下,性能還較Intel Goya 加速器翻了一倍。
這樣的性能數據,讓許多人覺得難以置信,不過從Cloud A100 的晶片規格來看,事情其實並不簡單。該晶片包含了16組AI核心,和達成400 TOPS 的INT8推理吞吐量。
輔以4路@64-bit 的LPDDR4X-4200(2100MHz)的記憶體控制器,每個控制器管著4個16-bit 通道,總系統頻寬達134GB/s 。如果你對當前的AI加速器設計比較熟悉,就知道它與NVIDIA A100和Intel Goya等推理加速器競品的頻寬有較大差距,因為後者擁有高頻寬快取(HBM2)和高達1-1.6TB/s的頻寬。即便如此,Qualcomm還是設法為Cloud AI 100平台配備了144MB的片上SRAM高速快取,以達成盡可能高的儲存流量。
Qualcomm承認在工作負載的記憶體空間佔用超過片上SRAM 的情況下,該架構的性能將有所不同。但對於目標客戶來說,這樣的平衡設計,仍是有意為之。後續該公司還展望了更大的核心、以及在多個Cloud AI 100 加速器之間橫向發展。
消息來源 |