Intel 10nm Ice Lake十代Core處理器已經上市,但它可不僅僅會用於輕薄筆電,未來還會登陸伺服器,而在兩個月前以色列海法(Intel重要研發基地),Intel還展示了一款採用10nm Ice Lake打造的Nervana NNP-I(神經網路推理處理器),但採用了M.2樣式。
Hot Chips 31晶片大會上,Intel首次公佈了這款特殊產品的架構細節。
在無處不AI(AI Everywhere)的指導思想下,Intel正在研究各種各樣的AI軟硬體方案,包括CPU、GPU、FPGA、ASIC等等。這款新的NNP-I代號為“Spring Hill”(溫泉山丘),針對數據中心領域的輕度AI推理工作,能做成M.2擴充卡正是得益於10nm晶片的超小面積。在原有10nm Ice Lake處理器的基礎上,Intel拿掉了兩個CPU計算核心、GPU顯示,同時加入12個推理計算引擎(ICE),彼此採用硬體同步,同時每個ICE有自己的4MB SRAM快取來減少數據轉移,並且和兩個CPU核心共享一致性互連、24MB L3快取。
Intel還設計了一個深度學習計算網格(DL Compute Grid),作為張量引擎的它通過數據和控制匯流排與SRAM、VP6 DSP互連,支援FP16、INT8、INT4、INT2、INT1等類型操作,其中DSP還可以處理一些特殊的算法。
CPU核心仍然是標準的Sunny Cove架構,支援AVX-512、VNNI指令集,可加速卷積神經網路,而完全繼承的FIVR電壓調節器可動態調整功耗,優先滿足最需要的硬體單元。內建兩個LPDDR4X記憶體控制器,整合封裝一顆記憶體晶片與之配合,傳輸頻寬4.2GT/s(68GB/s),並支援帶內ECC,但容量未公佈。NNP-I與系統的通訊通道走的是PCIe 3.0 x4或者PCIe 3.0 x8,頻寬不是什麼大問題,但沒有用NVMe協議,只是標準的PCIe界面。
TDP功耗非常靈活,低可至10W,高可達50W,完全視性能需要而定,作為擴充卡也不受M.2 15W的限制。根據不同功耗配置,INT8整數能效在2-4.8TOP/s範圍內。Intel表示10W TDP功耗下跑ResNet500,每分鐘推理數可達3600,等於效率高達4.8TOP/s,還是相當高的。
軟體方面Intel會提供相應的開發工具,幫助負載將推理工作完全轉移到加速器上,完成後再通知XEON CPU進行下一步處理,從而使得XEON CPU不再需要通過PCIe匯流排和其他加速器彼此通信、轉移數據,大大節省計算資源和功耗。
Intel NNP-I目前已經試產,將在年底投入規模量產並出貨,而且後續還有兩代新品正在設計中……
消息來源 |