IBM在HotChips 33上詳細介紹了其下一代Telum晶片,該晶片是Z處理器系列的一部分。Telum採用全新的核心架構設計,專為AI加速而設計。
據IBM稱新優化的Z核心及其全新的快取和多晶片結構層次結構使每個插槽的性能增長超過40%。Telum晶片由總共8個核心組成,擁有專用的L2快取。該晶片擁有SMT2,因此在晶片上提供16個線程,而在4-drawer最多可配置32個核心和64個線程。
據說時脈速度高於5GHz,而Telum Z晶片帶有重新設計的分支預測,擁有整合的第一/第二級BTB、動態BTB經過重新配置和超過270K的分支目標表。私有L2快取大小為32MB,擁有19個週期的負載使用延遲(約3.8ns,包括TLB訪問)。
轉向在8個核心之間共享的L3和L4快取,IBM Z Telum晶片在多達8個晶片上封裝了Virtual On-Chip 256MB L3和Virtual 2GB L4。L2採用320GB/s雙向環形互連拓撲,L3採用L2協同分佈式,平均延遲12ns。Virtual L3和L4為每個核心提供1.5倍的快取。
AI Acceleration的性能被為每個晶片超過6TFLOPs,在包含4個IBM Z晶片的4-drawer系統中超過200 TFLOPs。內部矩陣陣列擁有128個tiles和8路FP-16 SIMD、高密度乘法和累積FPU,而啟動陣列由32個tiles和8路FP16/FP-32 SIMD 組成。雙晶片配置可產生116,000 次推理(1.1ms),而32晶片配置可產生 3,600,000次推理(1.2ms)。
IBM Z Telum晶片可以擴展以獲得更高的性能,因為有單晶片和雙晶片模組化設計。2晶片配置採用帶有2個Telum晶片的小晶片設計,並提供16個核心、32個線程和512MB快取。
IBM Z Telum晶片上的AI加速器提供:
- 非常低且一致的推理延遲
- 大規模利用的計算能力
- 各種AI模型,從傳統的ML到RNN和CNN
- 安全性 - 提供企業級記憶體虛擬化和保護
- 未來軔體和硬體更新的可擴展性
IBM Z Telum晶片將採用7nm三星製程製造,晶片尺寸為530mm2。該晶片將容納225億個電晶體管,並將針對企業和嵌入式工作負載。
消息來源 |