lin.sinchen 發表於 2020-9-5 05:00:01

NVIDIA GeForce RTX 30 與 “Ampere” 架構前導與介紹

NVIDIA 一出手,便知有沒有,新一代 Ampere 架構的 GeForce RTX 30 系列遊戲顯示卡,RTX 3090、RTX 3080 與 RTX 3070 發表,不僅帶來 2 倍的遊戲效能提升,更維持著與上一代相同的美金定價;但在效能解禁之前,先從技術面來窺探這代 Ampere 的重點特色。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-1.jpg


Ampere 架構 - 第二代 RTX 兩倍 FP32、2x L1 頻寬與 2x 快取容量

面對 4K、8K 等高解析遊戲,玩家想要效能那就簡單暴力的兩倍 FP32 單元、2x L1 頻寬與 2x 快取容量;這代 Ampere SM 具備著 16 FP32 與 16 FP32 + INT 32 核心,因此一個時脈週期可執行 32 FP32 或 16 FP32 與 16 INT32 的運算,而 4 個 SM 分區達到 128 FP32 運算/clock,相較於 Turing 世代則是 2 倍的提升。

隨著 CUDA 運算單元的數量倍增,SM 也加倍 L1 快取頻寬、33% 快取容量提升與 2 倍快取分區大小;除此之外,Ampere 也帶來第二代 RT Core 核心,有著 2 倍 Triangle Intersection Rates 與第三代 Tensor Core,有著 2 倍 Math for Sparse Matrices 的能力。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-2.jpg


第二代 RT Core - Ray Tracing:Motion Blur 硬體加速

NVIDIA 在 Turing 架構中,設計用來加速光線追蹤的「RT Core」核心,針對「Bounding Volume Hierarchy(BVH)」演算法進行加速,將需要計算光線追蹤的物件,以 Bounding Volume 切出許多區塊,重複 Bbox intersection 與接著的 Triangle intersection,直到趨近於計算光影的位置。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-3.jpg


第二代 RT Core 當中,也大幅加速 Triangle intersection 的效能,並加入 Motion Blur 硬體加速,也就是在 Bbox 與 Triangle intersection 當中,導入 Interpolate tri position(時間)的參數,讓光線追蹤時可根據時間來變化,最終可渲染出具備動態模糊的光線追蹤影像,並達到 8x 快的 Ray Traversal。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-4.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-5.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-6.jpg


第三代 Tensor Core - SPARSE DEEP LEARNING

深度學習藉由 Dense Matrix 資料去 Train 神經網路,而在第三代 Tensor Core 當中,NVIDIA 導入 Sparse Deep Learning 技術,並通過 Tensor Core 針對 Sparsity Optimized;最終結果可見,這代 GA100(A100)與 GA102(RTX 3080)的 SM 單元 Tensor Core 數量降至 4 個核心(TU102 SM 為 8)。

在 Tensor Core 數量降低的狀況下,即便是以往 Dense 實作 GA102(RTX 3080)也有著 128 FP16 FMA 的速度,比起上一代 RTX 2080S 僅 64 FP16 FMA,而當使用 Sparse 算法則可達到 2 倍的運算速度提升。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-7.jpg


第三代 Tensor Core 通過 Sparse Deep Learning 可達到更好的運算效能,即便維持同樣算法下,也是上一代 Turing 架構的 2 倍效能提升。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-8.jpg


極致工藝的 1.9X PERF/W 效能功耗提升

雖然不少玩家對於遊戲顯卡的 Ampere,採用 SAMSUNG 8N 客製製程頗有維持,但最終若效能真如 2 倍效能提升同樣價格下,這樣的結果定能讓玩家心服口服。

NVIDIA 通過完整的工程設計與極致工藝,這代 Ampere 有著獨立的核心供電,以及記憶體與系統供電,這樣的設計讓 Ampere 有著 1.9x 每瓦效能提升,並且有著更低的核心溫度 78c 僅 30dbA 的噪音,這也是為何 NVIDIA 要在這代大動散熱設計的原因之一。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-9.jpg


PAM4 調變提高 GDDR6X 記憶體頻寬與新 Coding, Algorithms

NVIDIA 攜手 Micron 應用應用創新的訊號轉移技術、四位準脈波振幅調變(four-level pulse amplitude modulation, PAM4),實現 GDDR6X 的突破性頻寬;在一個 250mV 的電壓 Steps 當中,採用 4-level PAM4 調變來乘載資料。

並為了達到最高傳輸效能,通過 Max Transition Avoidance Coding 確保「眼圖」能夠有明確的訊號,而根據不同板子等設計,採用新演算法 Training and Adaptation 找到最適合的取樣點。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-10.jpg


HDMI 2.1 8K60Hz / 4K120Hz 與 AV1 硬體解碼

Ampere 世代升級 HDMI 2.1 規格,將能夠一線點亮 8K60Hz 或 4K120Hz 的顯示規格,並且支援 Display Stream Compression(DSC)可點亮 HDR 規格。

針對影像解碼這代則加入 AV1 解碼支援,而編碼功能則與 RTX 20 系列 GPU 相同。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-11.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-35.jpg


RTX 3080 效能與工作負載 WOLFENSTEIN YOUNGBLOOD

這代 Ampere 以兩倍 SM、2 代 RT Core 與 3 代 Tensor Core,導入 GDDR6X 記憶體與全新散熱設計,讓 RTX 3080 對比上一代 RTX 2080 Super,可達到近乎 2 倍的遊戲效能增長,在維持同樣價格之下,這效能增長可說是相當有感。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-13.jpg


而從工作負載來看,RTX 將以往只能透過 CUDA 核心硬算的功能,通過獨立 RT Core 負責光線追蹤,與之同時導入 Tensor Core 進行 DLSS 優化,並採用混合渲染工作,讓處理一幀影像的時間縮短至 12ms。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-14.jpg


而 Ampere 在有著 2 倍 FP32 與 L1 快取與新一代 RT Core 加持下,讓這一幀只要 11ms 即可完成,對比上代 Turing 則需要 19ms;而隨著 DLSS 2.0 導入時間回疊技術後,更可將 Ampere 的時間縮短至 6.7ms。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-15.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-16.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-17.jpg


最終從比較圖表來看,RTX 3080 在硬體 RT Core 運算與加上 DLSS 運算,可比起上代 RTX 2080 有著 1.7 倍的效能提升,若再加上 Async 運算則可達到 1.9x 提升。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-18.jpg


RTX IO 與 DirectStorage API 解決開放式界遊戲大量資料讀取瓶頸

隨著開放式界遊戲越來越細緻,使得遊戲資料量暴增至 60GB 甚至 100GB 的遊戲大小;此外,儲存系統也從 HDD、SATA SSD、Gen3 NVMe SSD 到最快 Gen4 NVMe SSD 的速度提升,但是傳統 API 的運作模式,卻反而造成這效能增長的瓶頸。

換了 Gen3 NVMe SSD 為什麼遊戲讀的還不夠快?主要原因在於,傳統 API 在無壓縮情況下,CPU 將資料從儲存單位讀取至系統記憶體,接著再將資料複製到 GPU 記憶體,而無壓縮情況下 16 / 32 GB/s 是寫入的最快上限。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-19.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-20.jpg


既然頻寬不夠那就壓縮資料,傳統壓縮資料讀取至 CPU 記憶體後,通過 CPU 進行解壓縮工作,以目前 CPU 效能來看還是夠,再將解壓縮的資料送給 GPU 記憶體,這也是為何 NVIDIA 要提出 RTX IO 的原因。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-21.jpg


RTX IO 通過 DirectStorage API,可直接從 PCIe 讀取壓縮資料,並實現並行讀取 NVMe Queues 與高度優化 IO 指令,無須 CPU 進行解壓縮工作,並通過 GPU 進行解壓縮工作,其效能可操作 Gen4 SSD 的極限,並支援異步調度與最大化負載與最佳傳輸流。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-22.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-23.jpg


NVIDIA 也提供自製的 Demo 展示 nvme GPU 解壓縮只需 1.62 秒即可完成,而 NVMe CPU 解壓縮則要 4.87 秒的時間。

而微軟也宣布 DirectStorage API 將在明年推出,這項技術主要是讓遊戲開發者,在設計遊戲時不用擔心過於大量的世界資料造成遊玩上的卡頓,而對於玩家則可真感受到無縫世界的順暢遊玩的爽感。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-24.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-25.jpg


BFGPU、RTX 3080 與 RTX 3070 對比上代同階顯卡效能搶先看

同價位的 $699 的 RTX 3080 對上 RTX 2080,以及 $499 的 RTX 3070 對比 RTX 2070;在 4K 解析度當中,RTX 3080 幾乎是上一代的 2 倍效能提升,而且 Control 在 RTX On 之後可達到 80fps 的驚人效能。

至於 1440p 解析度下 RTX 3070 效能則是上一代的 1.7 倍提升,同樣在 Control RTX On 可達到 100fps 的效能表現。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-26.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-27.jpg


當然 BFGPU RTX 3090 即是 TITAN RTX 的後繼者,效能上則約在 1.5-1.7x 的效能提升,此外這張卡比較偏向運算卡使用。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-34.jpg


最佳散熱器流:縮小電路板、集中散熱、雙扇配置 - 更安靜散熱更好

NVIDIA 新一代 GeForce RTX 3080 與 RTX 3090 採用新一代散熱設計,或許不少玩家覺得這樣的設計,使得 PCIe 電源線卡在中間不是相當美觀,但這設計重點都是為了解決:散熱、噪音。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-28.jpg


上一代 RTX 顯示卡,雖配置雙風扇但氣流通過鰭片後,直接撞在 Vapor Chamber、電路板、背板之上,使得廢熱散不開的狀況;這一代 RTX 顯示卡,極致縮小電路板與元件間的配置,再通過 Vapor Chamber 結合熱導管,將廢熱引導至卡的右側。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-29.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-30.jpg


右側配置抽風扇,將冷空氣從顯卡上方抽起,替熱導管解熱;而顯卡左側同樣配置風扇,這顆同樣抽起冷空氣,再通過顯卡後方排出熱氣。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-31.jpg


這樣的改變,讓 RTX 3080 散熱器對比上一代 RTX 2080 在同功耗下,可以更安靜 10dBA、溫度更低 20°C 的表現;而 RTX 3090 則有著 20dBA 的噪音降低與 30°C 的降溫能力。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-32.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-33.jpg

NVIDIA GeForce RTX 30 系列報導
NVIDIA 新一代 GeForce RTX 3090 / 3080 / 3070 遊戲卡皇即位, 效能倍升, 同樣價格
NVIDIA GeForce RTX 3090 / 3080 / 3070 重點規格整理
NVIDIA GeForce RTX 30 與 “Ampere” 架構前導與介紹
Fortnite, Cyberpunk 2077, Watch Dogs「RTX On」、8K 先驅與電競 REFLEX
NVIDIA Broadcast 通過 AI 降噪、虛擬背景、自動取景
頁: [1]
查看完整版本: NVIDIA GeForce RTX 30 與 “Ampere” 架構前導與介紹