據報導AMD的Strix Point Ryzen AI 9 365 Zen5 APU已經經過David Huang的測試,他對IPC、延遲和效能進行了深入分析。
注意 David Huang的部落格指出,這裡提到的數字是採用AMD Strix Point APU(主要是Ryzen AI 9 365)的工程樣品,因此請對這些數字持保留態度,因為它們可能無法代表最終產品。他還明確指出測試系統正在運行非官方系統韌體/軟體。
首先David接觸了一台早期的AMD Strix Point筆記型電腦,據報導該筆記型電腦配備Ryzen AI 9 365。測試平台使用32GB容量的LPDDR5x-7500記憶體。今天測試的主要重點是IPC和吞吐量,首先使用InstructionRate工具來測量三代Zen CPU(包括Zen3、Zen4和Zen5架構)的指令吞吐量/延遲。
David列出,雖然Zen5由於其全新的設計而有所改進,但該架構也有一些缺點,如下所示:
- 各種標量ALU指令的吞吐量得到了大幅提升,但由於行動Zen5中的向量單元數量相比桌面和伺服器減半,因此本次測試中的SIMD吞吐量與Zen 4相比保持不變。在Zen5上向量單元減半的核心,所有寬度的SIMD儲存操作仍較上一代翻倍,SIMD載入儲存吞吐量達到1:1;
- 分支處理能力大幅增強,每週期可處理的非採取分支由2個增加到3個, 每週期可處理2個採取分支。這應該和新的前端設計有關;
- 128/256/512bit SSE/AVX/AVX512 SIMD整數加法計算的延遲全部增加到2個週期。這項改變可能是為了更容易保持高頻。
- 128/256bit SIMD整數加法運算的吞吐量與Zen4相比減半,但512bit保持不變。推測該問題僅存在於SIMD減半的Zen5核心上,可能與連接埠分配有關;
- 刪除了Zen4中導入的nop融合功能。
- 調整了部分邏輯暫存器操作的吞吐量,將部分mov作業和部分暫存器清零作業的吞吐量統一為5,與Zen4相比是混合改進。
測試也著重於並行雙管道前端,它會影響指令取得、解碼和巨集操作快取。據稱透過運行不同長度和數量的NOP指令,可以觀察到Zen4和Zen5之間的差異。觀察結論如下:
- Zen5採用與Tremont類似但更寬的多前端設計,使用兩個4寬x86解碼器和至少8寬宏操作快取來實現8寬重命名;
- 考慮以下現象
- Zen5在單執行緒連續執行NOP指令時無法使x86解碼頻寬超過4;
- 在指令吞吐量部分,測試了單週期內可以處理兩個採取的分支;
- 有理由推測,Zen5並沒有採用類似於Gracemont的預解碼ILD快取方案,而是必須在分支預測器預測到已採取的分支時允許兩個解碼器同時工作,即直接讓其中一個解碼器開始解碼從下一個分支目標位址開始。從這個角度來看,AMD在分支稀疏的場景下,仍然需要依賴巨集指令快取來實現高吞吐量。
- 當核心運行兩個SMT執行緒時,每個執行緒可以獨佔一個解碼器,使得整個核心的x86解碼吞吐量限制在大多數情況下達到8。
然後測試繼續進行AMD Strix Point APU的更多效能方面。再次使用Ryzen AI 9 365晶片,但這次它與Ryzen 7 7735U (Zen3)、Ryzen 7 7840U (Zen4) 和前面提到的Ryzen AI 9 365 (Zen 5) 進行對抗,但是這次測試的晶片上同時提供了Zen5和Zen5C核心。 Zen 5C核心的運行時脈頻率要低得多,僅為3.30GHz,而Zen5 核心和其他兩個晶片則設定為4.8GHz的固定時脈頻率。
效能在 SPEC CPU 2017和Geekbench 6(單核心和多核心)中進行評估。在SPEC CPU 2017中AMD Zen5晶片比Zen4產品提升了9.71%,比Zen3產品提升了 22.28%。 Zen 5C核心在較低時脈下幾乎與Zen 4 IPC相符。
在Geekbench 6中,相對Zen3的相對效能提升高達40.94%,而Zen3和Zen4的相對效能提升約為13.1%。這些數字僅適用於單核心。透過多核心測試,Zen 5 Strix Point APU比Zen3提升了55.45%,比Zen4提升了24.3%,但應該指出的是Zen3和Zen4晶片運行的TDP為28W,而Zen3和Zen4晶片的TDP為54W Ryzen AI 9 365 APU。
David的部落格文章廣泛介紹了Zen5架構的各個架構方面,該架構不僅為Ryzen AI 300 Strix Point APU提供動力,還為多種不同的CPU提供動力,例如Ryzen 9000 Granite Ridge桌上型系列、第五代EPYC Turin伺服器系列以及適用於桌上型電腦和筆記型電腦平台的各種其他APU。
消息來源 |