找回密碼註冊
作者: sxs112.tw
查看: 4956
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

SAMSUNG T7 Shield 移動固態硬碟

[*]超快的移動固態硬碟,比傳統外接 HDD 快 9.5 倍 [*]堅固的儲存 ...

GEX PRO 850W玩家開箱體驗分享活動

卓越性能,超值選擇 GEX PRO 系列通過 80 PLUS 金牌認證,實現高達 ...

體驗極速WiFi 7!MSI Roamii BE Lite Mesh

第一名 guanrung1110 https://www.xfastest.com/thread-293988-1- ...

極致效能 為遊戲而生 990 PRO SSD 玩家體驗

[*]極致效能固態硬碟 [*]PCIe 4.0 速度大幅提升 [*]優化的電源效率 ...

打印 上一主題 下一主題

[處理器 主機板] AMD Strix Point Ryzen AI 9 365 APU測試曝光了Zen5的IPC、延遲、吞吐量和各種效能方面

[複製鏈接]| 回復
跳轉到指定樓層
1#
sxs112.tw 發表於 2024-6-22 15:58:05 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
據報導AMD的Strix Point Ryzen AI 9 365 Zen5 APU已經經過David Huang的測試,他對IPC、延遲和效能進行了深入分析。
AMD-Ryzen-AI-9-365-Zen-5-Strix-Point-APU-_-IPC-Latency-Bandwidth-Throughput-Perf.jpg

注意 David Huang的部落格指出,這裡提到的數字是採用AMD Strix Point APU(主要是Ryzen AI 9 365)的工程樣品,因此請對這些數字持保留態度,因為它們可能無法代表最終產品。他還明確指出測試系統正在運行非官方系統韌體/軟體。
AMD-Ryzen-AI-9-365-Zen-5-Strix-Point-APU-_-IPC-Latency-Bandwidth-Throughput-Perf.png

首先David接觸了一台早期的AMD Strix Point筆記型電腦,據報導該筆記型電腦配備Ryzen AI 9 365。測試平台使用32GB容量的LPDDR5x-7500記憶體。今天測試的主要重點是IPC和吞吐量,首先使用InstructionRate工具來測量三代Zen CPU(包括Zen3、Zen4和Zen5架構)的指令吞吐量/延遲。
AMD-Ryzen-AI-9-365-Zen-5-Strix-Point-APU-_-IPC-Latency-Bandwidth-Throughput-Perf.png


AMD-Ryzen-AI-9-365-Zen-5-Strix-Point-APU-_-IPC-Latency-Bandwidth-Throughput-Perf.png


AMD-Ryzen-AI-9-365-Zen-5-Strix-Point-APU-_-IPC-Latency-Bandwidth-Throughput-Perf.png


AMD-Ryzen-AI-9-365-Zen-5-Strix-Point-APU-_-IPC-Latency-Bandwidth-Throughput-Perf.png


AMD-Ryzen-AI-9-365-Zen-5-Strix-Point-APU-_-IPC-Latency-Bandwidth-Throughput-Perf.png

David列出,雖然Zen5由於其全新的設計而有所改進,但該架構也有一些缺點,如下所示:
  • 各種標量ALU指令的吞吐量得到了大幅提升,但由於行動Zen5中的向量單元數量相比桌面和伺服器減半,因此本次測試中的SIMD吞吐量與Zen 4相比保持不變。在Zen5上向量單元減半的核心,所有寬度的SIMD儲存操作仍較上一代翻倍,SIMD載入儲存吞吐量達到1:1;
  • 分支處理能力大幅增強,每週期可處理的非採取分支由2個增加到3個, 每週期可處理2個採取分支。這應該和新的前端設計有關;
  • 128/256/512bit SSE/AVX/AVX512 SIMD整數加法計算的延遲全部增加到2個週期。這項改變可能是為了更容易保持高頻。
  • 128/256bit SIMD整數加法運算的吞吐量與Zen4相比減半,但512bit保持不變。推測該問題僅存在於SIMD減半的Zen5核心上,可能與連接埠分配有關;
  • 刪除了Zen4中導入的nop融合功能。
  • 調整了部分邏輯暫存器操作的吞吐量,將部分mov作業和部分暫存器清零作業的吞吐量統一為5,與Zen4相比是混合改進。

測試也著重於並行雙管道前端,它會影響指令取得、解碼和巨集操作快取。據稱透過運行不同長度和數量的NOP指令,可以觀察到Zen4和Zen5之間的差異。觀察結論如下:
  • Zen5採用與Tremont類似但更寬的多前端設計,使用兩個4寬x86解碼器和至少8寬宏操作快取來實現8寬重命名;
  • 考慮以下現象
  • Zen5在單執行緒連續執行NOP指令時無法使x86解碼頻寬超過4;
  • 在指令吞吐量部分,測試了單週期內可以處理兩個採取的分支;
  • 有理由推測,Zen5並沒有採用類似於Gracemont的預解碼ILD快取方案,而是必須在分支預測器預測到已採取的分支時允許兩個解碼器同時工作,即直接讓其中一個解碼器開始解碼從下一個分支目標位址開始。從這個角度來看,AMD在分支稀疏的場景下,仍然需要依賴巨集指令快取來實現高吞吐量。
  • 當核心運行兩個SMT執行緒時,每個執行緒可以獨佔一個解碼器,使得整個核心的x86解碼吞吐量限制在大多數情況下達到8。

然後測試繼續進行AMD Strix Point APU的更多效能方面。再次使用Ryzen AI 9 365晶片,但這次它與Ryzen 7 7735U (Zen3)、Ryzen 7 7840U (Zen4) 和前面提到的Ryzen AI 9 365 (Zen 5) 進行對抗,但是這次測試的晶片上同時提供了Zen5和Zen5C核心。 Zen 5C核心的運行時脈頻率要低得多,僅為3.30GHz,而Zen5 核心和其他兩個晶片則設定為4.8GHz的固定時脈頻率。
AMD-Ryzen-AI-9-365-Zen-5-Strix-Point-APU-_-IPC-Latency-Bandwidth-Throughput-Perf.png


AMD-Ryzen-AI-9-365-Zen-5-Strix-Point-APU-_-IPC-Latency-Bandwidth-Throughput-Perf.png

效能在 SPEC CPU 2017和Geekbench 6(單核心和多核心)中進行評估。在SPEC CPU 2017中AMD Zen5晶片比Zen4產品提升了9.71%,比Zen3產品提升了 22.28%。 Zen 5C核心在較低時脈下幾乎與Zen 4 IPC相符。
AMD-Ryzen-AI-9-365-Zen-5-Strix-Point-APU-_-IPC-Latency-Bandwidth-Throughput-Perf.png


AMD-Ryzen-AI-9-365-Zen-5-Strix-Point-APU-_-IPC-Latency-Bandwidth-Throughput-Perf.png

在Geekbench 6中,相對Zen3的相對效能提升高達40.94%,而Zen3和Zen4的相對效能提升約為13.1%。這些數字僅適用於單核心。透過多核心測試,Zen 5 Strix Point APU比Zen3提升了55.45%,比Zen4提升了24.3%,但應該指出的是Zen3和Zen4晶片運行的TDP為28W,而Zen3和Zen4晶片的TDP為54W Ryzen AI 9 365 APU。

David的部落格文章廣泛介紹了Zen5架構的各個架構方面,該架構不僅為Ryzen AI 300 Strix Point APU提供動力,還為多種不同的CPU提供動力,例如Ryzen 9000 Granite Ridge桌上型系列、第五代EPYC Turin伺服器系列以及適用於桌上型電腦和筆記型電腦平台的各種其他APU。

消息來源
您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-12-18 12:13 , Processed in 0.144678 second(s), 33 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表