https://www.firingsquad.tw/fstw/news/tonews.action?n=6044
介紹
我們已經在Radeon HD 4800的評測中看到了這一代顯卡的飛躍,特别是在流處理器數量上,從R600的320個一下子躍遷到RV770的800個!暫不考慮其他部件的影響,流處理器大幅度的提高,晶體管集成數卻隻從RV670的6.6億上升到了RV770的9.6億。是的,RV770的效率非常高,相比RV670,AMD僅僅将核心尺寸提高了30%而已,它們同樣都是55nm制造工藝的産物。
RV770繼承了RV670所有的優秀特性,比如支持DirectX 10.1,擁有tessellation單元,支持PCI Express 2.0。此外AMD還增加了一個全新的統一視頻解碼引擎,這種引擎可以接受闆卡本身發出的微操作,這可以幫助顯卡更好的适應當前的應用環境。微操作還控制着頻率、電壓等,這可以保證核心更有效的工作和節能。
Radeon HD也談物理運算
你也不能忽視了AMD基于圖形芯片的物理運算特性,AMD已經與Intel在這方面進行合作,讓顯卡加速物理運算成爲可能,Intel目前擁有物理引擎Havok的版權。不過當事雙方還沒有做出任何正式申明,而當這一切最終成真,那麽我們可能會看到圖形芯片很好的進行物理運算,運算速度可能達到CPU的幾十倍,甚至幾百倍。
所有的規格參數與特性都表明,RV770可以比一般CPU做得更好,特别是在物理運算方面。當然,就目前而言,他們還沒有辦法取代CPU在遊戲中全面負責物理運算,不過圖形處理器的強大性能已經嶄露頭角。我們當前還不得不等待,等待有一天可以看到,在顯卡高性能運算幫助下,遊戲的物理效果究竟可以達到什麽程度。
架構簡述
RV770的架構還是延用了上一代統一渲染架構,當然改進的地方很多。在這個架構中,主要由Command Processor、Setup Engine、Ultra-Threaded Dispatch Processor、Stream Processing Units、Texture Units、Cache & Buffer、Shader Export Render Back-Ends和Memory Control等單元組成。RV770主要改進的地方集中在Stream Processing Units、Texture Units和Render Back-Ends部分。
流處理器
作爲RV770架構最核心的部分,流處理器單元至關重要。ATI的統一着色單元稱爲Stream Processing Units,而NVIDIA産品中統一着色單元稱爲Streaming Processors,兩家雖然都稱爲流處理器,但結構完全不同。對于ATI而言,流處理器單元和流處理器是不同的,每個Units内部包含5個超标量ALU ,這5個ALU共用一個指令發射端,卻能同時執行5個通道的數據,這就是SIMD架構,一個時鍾周期可以進行5次MAD運算。
在運算部件中,其中大一點的ALU還能夠進行一些特殊運算,比如SIN、COS、LOG、EXP等函數,因此可以說一個Stream Processing Units實際上是包含有5個Stream Processing的,這就是我們常說的4D+1D超标量SIMD架構。而NVIDIA的每個流處理器就是1D标量,屬于純标量MIMD架構。對于RV770而言,擁有160個Stream Processing Units,也就是說一共有800個Stream Processing。
每16個Stream Processing Units組成一個SIMD矩陣,每個SIMD矩陣内含有80個SP,比起RV670的4個SIMD矩陣320個SP完全是一種從量變到質變的飛躍過程。每個SIMD矩陣對應有一個紋理單元,RV770的紋理單元比上一代作過優化,紋理緩存帶寬是HD 3000系列的兩倍,每平方毫米性能增加70%,在每個紋理單元均内含4個Texture Address Unit、4個Texture Filter Unit,因此10個紋理單元一共有84個TAU和40個TFU,比起RV670的32/16個均有大幅提高,對遊戲的執行效率将會有顯著幫助。
紋理單元與tesselator單元
我們發現,在RV770中每個SIMD矩陣還對應有一個Local Data Share,其大小16KB,在以往的RV670架構圖中并沒有發現類似功能部分。這樣的話,每個SIMD矩陣内,流處理器與流處理器間能共享信息,省下了從外部緩存系統中讀取信息的時間,這種設計大大加快了處理器的運算速度,同時提高了各種算法的效率,這與NVIDIA GeForce GTX200内部的TPC加入緩存的思想相類似。
有一點要提到的就是AMD的Programmable Tessellator可編程鑲嵌單元,在Setup Engine部分可以見到它,AMD稱在RV770中強化了這一部分的性能。簡單的說,Tessellator可單純使用GPU創建不同複雜程度的多邊形模型,降低開發難度、改進程序性能,它能夠在圖形芯片内部自動創造頂點,使模型細化,從而獲得更好畫面效果。Tessellator并不隸屬于DirectX 10标準的技術,不過DirectX 10.1标準已将它納于麾下,它最重要的是在保證了非常好的視覺效果的前提下節約了性能,讓一個程序的運行速度能夠保證在很好的水平。
反鋸齒效果
RV770的Render Back-Ends單元雖然還是4組16個,但AMD稱對它也做了優化,Z/模闆采樣從原來的每組8個增加到每組16個,翻了一倍,這樣MSAA速度也成倍提高,而且反鋸齒算法的最後處理還是交給流處理器來完成的,流處理器大幅度的增加到800個,對AA性能的提高不言而喻。關于這一點非常值得關注,不論是NV還是ATI顯卡,AA性能情況一直都是備受用戶關注,我們将對其進行效果對比以及性能測試。
CFAA效果對比
4xAA
4xAA with edge detect (12xAA)
8xAA
8xAA with edge detect (24xAA)
System Setup
Intel Core 2 Extreme QX9770
EVGA nForce 790i Ultra SLI motherboard (for GeForce cards)
ASUS P5E3 Premium WiFi AP Edition (for Radeon cards)
4GB OCZ DDR3 @ 1333MHz
GeForce 9800 GX2
GeForce 8800 GT 512MB
ForceWare 175.16
GeForce GTX 290
GeForce GTX 260
GeForce 9800 GTX+
GeForce 9800 GTX
ForceWare 177.39
AMD Radeon HD 4850
AMD Radeon HD 4870
sample_vista32-64_HD_4800_Series_5.exe
300GB Western Digital Caviar SE
Windows Vista Ultimate 64-bit w/Service Pack 1
Benchmarks
Company of Heroes 1.71
F.E.A.R. 1.08
Elder Scrolls IV: Oblivion 1.2
Call of Duty 4 1.4
Half-Life 2 Episode Two
Crysis 1.2
Lost Planet
Crysis 1.21
|