NVIDIA GeForce RTX 30 與 “Ampere” 架構前導與介紹-NVIDIA,Ampere,RT Core,Tensor Core,GDDR6X,AV1,效能,3080,3090

lin.sinchen 發表於 2020-9-5 05:00:01

NVIDIA GeForce RTX 30 與 “Ampere” 架構前導與介紹

NVIDIA 一出手，便知有沒有，新一代 Ampere 架構的 GeForce RTX 30 系列遊戲顯示卡，RTX 3090、RTX 3080 與 RTX 3070 發表，不僅帶來 2 倍的遊戲效能提升，更維持著與上一代相同的美金定價；但在效能解禁之前，先從技術面來窺探這代 Ampere 的重點特色。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-1.jpg

Ampere 架構 - 第二代 RTX 兩倍 FP32、2x L1 頻寬與 2x 快取容量

面對 4K、8K 等高解析遊戲，玩家想要效能那就簡單暴力的兩倍 FP32 單元、2x L1 頻寬與 2x 快取容量；這代 Ampere SM 具備著 16 FP32 與 16 FP32 + INT 32 核心，因此一個時脈週期可執行 32 FP32 或 16 FP32 與 16 INT32 的運算，而 4 個 SM 分區達到 128 FP32 運算/clock，相較於 Turing 世代則是 2 倍的提升。

隨著 CUDA 運算單元的數量倍增，SM 也加倍 L1 快取頻寬、33% 快取容量提升與 2 倍快取分區大小；除此之外，Ampere 也帶來第二代 RT Core 核心，有著 2 倍 Triangle Intersection Rates 與第三代 Tensor Core，有著 2 倍 Math for Sparse Matrices 的能力。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-2.jpg

第二代 RT Core - Ray Tracing：Motion Blur 硬體加速

NVIDIA 在 Turing 架構中，設計用來加速光線追蹤的「RT Core」核心，針對「Bounding Volume Hierarchy（BVH）」演算法進行加速，將需要計算光線追蹤的物件，以 Bounding Volume 切出許多區塊，重複 Bbox intersection 與接著的 Triangle intersection，直到趨近於計算光影的位置。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-3.jpg

第二代 RT Core 當中，也大幅加速 Triangle intersection 的效能，並加入 Motion Blur 硬體加速，也就是在 Bbox 與 Triangle intersection 當中，導入 Interpolate tri position（時間）的參數，讓光線追蹤時可根據時間來變化，最終可渲染出具備動態模糊的光線追蹤影像，並達到 8x 快的 Ray Traversal。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-4.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-5.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-6.jpg

第三代 Tensor Core - SPARSE DEEP LEARNING

深度學習藉由 Dense Matrix 資料去 Train 神經網路，而在第三代 Tensor Core 當中，NVIDIA 導入 Sparse Deep Learning 技術，並通過 Tensor Core 針對 Sparsity Optimized；最終結果可見，這代 GA100（A100）與 GA102（RTX 3080）的 SM 單元 Tensor Core 數量降至 4 個核心（TU102 SM 為 8）。

在 Tensor Core 數量降低的狀況下，即便是以往 Dense 實作 GA102（RTX 3080）也有著 128 FP16 FMA 的速度，比起上一代 RTX 2080S 僅 64 FP16 FMA，而當使用 Sparse 算法則可達到 2 倍的運算速度提升。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-7.jpg

第三代 Tensor Core 通過 Sparse Deep Learning 可達到更好的運算效能，即便維持同樣算法下，也是上一代 Turing 架構的 2 倍效能提升。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-8.jpg

極致工藝的 1.9X PERF/W 效能功耗提升

雖然不少玩家對於遊戲顯卡的 Ampere，採用 SAMSUNG 8N 客製製程頗有維持，但最終若效能真如 2 倍效能提升同樣價格下，這樣的結果定能讓玩家心服口服。

NVIDIA 通過完整的工程設計與極致工藝，這代 Ampere 有著獨立的核心供電，以及記憶體與系統供電，這樣的設計讓 Ampere 有著 1.9x 每瓦效能提升，並且有著更低的核心溫度 78c 僅 30dbA 的噪音，這也是為何 NVIDIA 要在這代大動散熱設計的原因之一。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-9.jpg

PAM4 調變提高 GDDR6X 記憶體頻寬與新 Coding, Algorithms

NVIDIA 攜手 Micron 應用應用創新的訊號轉移技術、四位準脈波振幅調變（four-level pulse amplitude modulation, PAM4），實現 GDDR6X 的突破性頻寬；在一個 250mV 的電壓 Steps 當中，採用 4-level PAM4 調變來乘載資料。

並為了達到最高傳輸效能，通過 Max Transition Avoidance Coding 確保「眼圖」能夠有明確的訊號，而根據不同板子等設計，採用新演算法 Training and Adaptation 找到最適合的取樣點。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-10.jpg

HDMI 2.1 8K60Hz / 4K120Hz 與 AV1 硬體解碼

Ampere 世代升級 HDMI 2.1 規格，將能夠一線點亮 8K60Hz 或 4K120Hz 的顯示規格，並且支援 Display Stream Compression（DSC）可點亮 HDR 規格。

針對影像解碼這代則加入 AV1 解碼支援，而編碼功能則與 RTX 20 系列 GPU 相同。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-11.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-35.jpg

RTX 3080 效能與工作負載 WOLFENSTEIN YOUNGBLOOD

這代 Ampere 以兩倍 SM、2 代 RT Core 與 3 代 Tensor Core，導入 GDDR6X 記憶體與全新散熱設計，讓 RTX 3080 對比上一代 RTX 2080 Super，可達到近乎 2 倍的遊戲效能增長，在維持同樣價格之下，這效能增長可說是相當有感。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-13.jpg

而從工作負載來看，RTX 將以往只能透過 CUDA 核心硬算的功能，通過獨立 RT Core 負責光線追蹤，與之同時導入 Tensor Core 進行 DLSS 優化，並採用混合渲染工作，讓處理一幀影像的時間縮短至 12ms。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-14.jpg

而 Ampere 在有著 2 倍 FP32 與 L1 快取與新一代 RT Core 加持下，讓這一幀只要 11ms 即可完成，對比上代 Turing 則需要 19ms；而隨著 DLSS 2.0 導入時間回疊技術後，更可將 Ampere 的時間縮短至 6.7ms。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-15.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-16.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-17.jpg

最終從比較圖表來看，RTX 3080 在硬體 RT Core 運算與加上 DLSS 運算，可比起上代 RTX 2080 有著 1.7 倍的效能提升，若再加上 Async 運算則可達到 1.9x 提升。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-18.jpg

RTX IO 與 DirectStorage API 解決開放式界遊戲大量資料讀取瓶頸

隨著開放式界遊戲越來越細緻，使得遊戲資料量暴增至 60GB 甚至 100GB 的遊戲大小；此外，儲存系統也從 HDD、SATA SSD、Gen3 NVMe SSD 到最快 Gen4 NVMe SSD 的速度提升，但是傳統 API 的運作模式，卻反而造成這效能增長的瓶頸。

換了 Gen3 NVMe SSD 為什麼遊戲讀的還不夠快？主要原因在於，傳統 API 在無壓縮情況下，CPU 將資料從儲存單位讀取至系統記憶體，接著再將資料複製到 GPU 記憶體，而無壓縮情況下 16 / 32 GB/s 是寫入的最快上限。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-19.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-20.jpg

既然頻寬不夠那就壓縮資料，傳統壓縮資料讀取至 CPU 記憶體後，通過 CPU 進行解壓縮工作，以目前 CPU 效能來看還是夠，再將解壓縮的資料送給 GPU 記憶體，這也是為何 NVIDIA 要提出 RTX IO 的原因。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-21.jpg

RTX IO 通過 DirectStorage API，可直接從 PCIe 讀取壓縮資料，並實現並行讀取 NVMe Queues 與高度優化 IO 指令，無須 CPU 進行解壓縮工作，並通過 GPU 進行解壓縮工作，其效能可操作 Gen4 SSD 的極限，並支援異步調度與最大化負載與最佳傳輸流。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-22.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-23.jpg

NVIDIA 也提供自製的 Demo 展示 nvme GPU 解壓縮只需 1.62 秒即可完成，而 NVMe CPU 解壓縮則要 4.87 秒的時間。

而微軟也宣布 DirectStorage API 將在明年推出，這項技術主要是讓遊戲開發者，在設計遊戲時不用擔心過於大量的世界資料造成遊玩上的卡頓，而對於玩家則可真感受到無縫世界的順暢遊玩的爽感。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-24.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-25.jpg

BFGPU、RTX 3080 與 RTX 3070 對比上代同階顯卡效能搶先看

同價位的 $699 的 RTX 3080 對上 RTX 2080，以及 $499 的 RTX 3070 對比 RTX 2070；在 4K 解析度當中，RTX 3080 幾乎是上一代的 2 倍效能提升，而且 Control 在 RTX On 之後可達到 80fps 的驚人效能。

至於 1440p 解析度下 RTX 3070 效能則是上一代的 1.7 倍提升，同樣在 Control RTX On 可達到 100fps 的效能表現。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-26.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-27.jpg

當然 BFGPU RTX 3090 即是 TITAN RTX 的後繼者，效能上則約在 1.5-1.7x 的效能提升，此外這張卡比較偏向運算卡使用。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-34.jpg

最佳散熱器流：縮小電路板、集中散熱、雙扇配置 - 更安靜散熱更好

NVIDIA 新一代 GeForce RTX 3080 與 RTX 3090 採用新一代散熱設計，或許不少玩家覺得這樣的設計，使得 PCIe 電源線卡在中間不是相當美觀，但這設計重點都是為了解決：散熱、噪音。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-28.jpg

上一代 RTX 顯示卡，雖配置雙風扇但氣流通過鰭片後，直接撞在 Vapor Chamber、電路板、背板之上，使得廢熱散不開的狀況；這一代 RTX 顯示卡，極致縮小電路板與元件間的配置，再通過 Vapor Chamber 結合熱導管，將廢熱引導至卡的右側。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-29.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-30.jpg

右側配置抽風扇，將冷空氣從顯卡上方抽起，替熱導管解熱；而顯卡左側同樣配置風扇，這顆同樣抽起冷空氣，再通過顯卡後方排出熱氣。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-31.jpg

這樣的改變，讓 RTX 3080 散熱器對比上一代 RTX 2080 在同功耗下，可以更安靜 10dBA、溫度更低 20°C 的表現；而 RTX 3090 則有著 20dBA 的噪音降低與 30°C 的降溫能力。

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-32.jpg

https://p.xfastest.com/~sinchen/NVIDIA-GeForce-RTX-30-briefing/NVIDIA-GeForce-RTX-30-briefing-33.jpg

NVIDIA GeForce RTX 30 系列報導
NVIDIA 新一代 GeForce RTX 3090 / 3080 / 3070 遊戲卡皇即位, 效能倍升, 同樣價格
NVIDIA GeForce RTX 3090 / 3080 / 3070 重點規格整理
NVIDIA GeForce RTX 30 與 “Ampere” 架構前導與介紹
Fortnite, Cyberpunk 2077, Watch Dogs「RTX On」、8K 先驅與電競 REFLEX
NVIDIA Broadcast 通過 AI 降噪、虛擬背景、自動取景

頁: [1]

XFastest 最夯的電腦領域's Archiver

NVIDIA GeForce RTX 30 與 “Ampere” 架構前導與介紹