有關將為GeForce RTX 40系列顯示卡提供動力的NVIDIA Ada Lovelace遊戲GPU的詳細訊息已被披露。新訊息來自Kopte7kimi&並談論下一代架構的Block Diagram。
從GPU配置開始,Kopite7kimi將頂級AD102 GPU與NVIDIA的其他各種GPU進行了比較。其中包括專注於遊戲的Ampere GA102和Turing TU102,同時還添加了專注於HPC的Hopper GH100和Ampere GA100。
NVIDIA Ada Lovelace AD102 GPU將配備多達12個GPC(顯示處理集群)。這與僅有7個GPC的GA102相比增加了70%。每個GPU將由6個TPC和2個SM組成,與現有晶片的配置相同。每個SM(Streaming Multiprocessor)將容納四個子核心,這也與GA102 GPU相同。改變的是FP32和INT32核心配置。每個子核心將包括 128個FP32 單元,但組合的FP32+INT32單元將達到192個。這是因為FP32單元與IN32單元不共享相同的子核心。128個FP32核心與64個INT32核心是分開的。
所以總括來說每個子核心將由128個FP32加上64個INT32單元組成,總共192個單元。每個SM將總共有512個FP32單元加上256個INT32單元,總共768個單元。由於總共有24個SM單元(每個GPC 2個),我們正在看到12,288個FP32單元和6,144個INT32單元,總共18,432個核心。每個SM還將包括兩個Wrap Schedules(32 線程/CLK),每個SM有64個wrap。與GA102 GPU相比,核心 (FP32+INT32) 增加了50%,Wraps/Threads增加了33%。
轉到快取,這是NVIDIA對現有Ampere GPU的另一個重大改進。Ada Lovelace GPU將為每個SM打包192KB的L1,比Ampere增加50%。在頂級AD102 GPU上總共有4.5MB的L1。如洩漏中所述L2將增加到96MB。這比僅有6MB L2的Ampere GPU增加了16倍。快取將在GPU之間共享。
最後每個GPC的ROP也增加到32個,比Ampere增加了2倍。您在下一代旗艦產品上看到的ROP高達384個,而在最快的Ampere GPU RTX 3090 Ti上僅為112個。Ada Lovelace GPU上還將注入最新的第4代Tensor和第3代 RT(光線追蹤)核心,這將有助於將DLSS和光線追蹤性能提升到一個新的水平。總體而言Ada Lovelace AD102 GPU將提供:
- 2x GPC(與Ampere相比)
- 增加50%的核心(相對於Ampere)
- 多出50%的L1(與Ampere 相比)
- 16倍以上的 L2(與Ampere 相比)
- 將ROP翻倍(與Ampere相比)
- 第4代Tensor核心和第3代RT核心
消息來源 |