Tachyum已正式發布其5nm Prodigy通用處理器的白皮書,該處理器於2018年一直亮相。
Tachyum Prodigy CPU 採用通用處理器設計,這意味著它們可以在同一晶片上執行CPU、GPU和TPU任務,與競爭產品相比節省成本並提供真正的高性能。該公司的目標是透過其Prodigy產品陣容應對所有三大晶片巨頭AMD、Intel和NVIDIA,在他們的演講中Tachyum估計在HPC方面的性能比Intel的Xeon CPU提升了4倍,比NVIDIA的H100提升了3倍,比NVIDIA的H100提升了6倍的AI和推理工作負載的原始性能。據說這些晶片在相同功率下提供的性能是其競爭對手系統的10倍以上。CPU的一些主要功能包括:
- 128個高性能統一64位元核心,頻率高達5.7GHz
- 16個DDR5記憶體控制器
- 64個PCIe 5.0通道
- 多處理器支援4-socket和2-socket平台
- 適用於風冷和水冷數據中心的機架解決方案
- SPECrate 2017整數性能大約是Intel 8380的4倍和AMD 7763HPC的大約3倍
- 雙精度浮點性能是NVIDIA H100的3倍
- AI FP8性能是NVIDIA H100的6倍
Tachyum現已發布其Prodigy通用處理器的完整白皮書,詳細介紹了CPU架構、平台和陣容,將從180W TDP的低功耗T8232-LP 32核CPU擴展到旗艦T16128- AIX,共有128個核心。
在快取配置方面,每個核心包含64KB I-Cache和64KB D-Cache以及SECDED ECC。每個核心還有1MB的L2,有雙重糾錯ECC和三重錯誤檢測DECTED。活動核心也可以從空閒CPU核心匯集到L2快取中,以充當共享的L3快取。
所有晶片均在台積電的5nm (N5P)製程上製造,該製程是標準5nm (N5)的略微優化版本,可執行原生和x86、Arm和RISC-V二進製文件。至於HPC和AI特定功能,Tachyum Prodigy產品包括:
- 每個核心2個1024位元Vector單元
- 每核4096位元Matrix 處理器
- FP64、FP32、TF32、BF16、Int8、FP8、TAI 數據類型
- 稀疏數據類型優化效率
- 使用低精度數據類型的量化支援
- Scatter/Gather用於高效儲存和加載矩陣
旗艦CPU上的所有128個核心的頻率均為5.7GHz以上,AI客戶將獲得多達16個記憶體通道,支援高達32TB (64 DIMM) 的 DDR5-7200。該處理器還將支援64個PCIe Gen 5.0通道,並採用950W TDP封裝。
現在這只是一個晶片,但Tachyum將允許支援2和4插槽系統的完整硬體一致性。因此四個Progidy T16128-AIX處理器可提供多達512個核心和3600W的功率。
Prodigy平台將採用各種機架解決方案,例如能夠容納多達四個Tachyum Prodigy晶片、64個16GB DDR5 DIMM和2個200 GbE RoCE NIC的風冷2U伺服器。還有一個定制的48U機架公版設計,有2個版本,一種是水冷的,一種是風冷的。風冷版支援40台4路2U伺服器共160顆晶片;水冷版支援8台4路1U伺服器,共計352顆晶片。兩個機架都採用模組化設計,2個機架可以組合成一個2機架機櫃,以優化佔地面積。每台伺服器都帶有四個cLGA插槽。
Tachyum還提供了針對Intel Ice Lake、NVIDIA Hopper/Grace HPC和AMD Milan CP 的一些初步性能估計。該公司聲稱與競爭對手相比,SPECrate 2017 Integer性能提高了4倍,原始浮點性能 (FP64) 提高了30倍。來自NVIDIA的Hopper H100是Tachyum的主要競爭晶片,因為它被用於幾項比較測試。
提到到的一些性能數據包括:
- 雙精度浮點性能是NVIDIA H100的3倍
- AI FP8性能是NVIDIA H100的6倍
- 每W性能是NVIDIA H100的9倍
- Specrate 2017 INT性能是Intel Xeon Platinum 8380的4倍
- FP64 性能是Intel Xeon Platinum 8380的30倍
Tachyum預計首批Prodigy將在今年晚些時候開始提供樣品,預計將於2023年下半年量產。Prodigy的下一代升級版Prodigy 2也列在Tachyum的路線圖中,並將提供新的3nm架構提供更多的核心、更高的記憶體頻寬、PCIe 6.0 + CXL支援以及增強的連接性。樣品應該會在2024年下半年開始。
消息來源
|