來源:驅動之家
https://news.mydrivers.com/1/432/432550_all.htm#2
在忍耐了長達兩個產品週期的時間之後,AMD終於來到了自己命運的十字路口。
毫無疑問,從Tahiti架構開始,AMD已經太久沒有迎來屬於自己的機會和節奏了。架構更新的乏力由很多因素所導致,這不僅是資源調配、財力許可或者研發實力那麼簡單,更重要的是命運和機會,AMD一直缺少能夠讓自己“名正言順”的去顛覆現有架構設計的機會。現在,這種機會擺在了AMD全新的Fiji架構的面前,那就是HBM堆疊顯存。
與以往的技術進步不同,HBM顯存並未直接提升顯存的速度或者改變信號模式,但它卻同時實現了存儲速度的提升、容量的激增以及能耗的大幅降低。用一句貼切的話形容,HBM顯存所帶來的革命讓顯存從此“站起來”了。除此之外,HBM顯存還會大幅改變GPU邏輯結構的設計,這給亟待機會和空間去修改之前種種設計弊端的AMD帶來了寶貴的施展空間。
顯存的最重要革命將從這裡開始
HBM顯存到底是什麼?是什麼讓它具備了上述種種優勢?又是什麼讓它成了AMD的新契機和希望?在接下來的時間裡,就讓我們一起看看堆疊存儲體系的技術細節吧。
何以為“堆疊”
與以往的顯存形式不同,HBM顯存的最大特點在於向“空間”要“空間”。前一個“空間”指的是立體空間,後一個“空間”則指存儲空間。傳統顯存的存儲模式以平面分佈為基礎,所有存儲顆粒均分佈於二維平面當中,除了使用更大容量的單顆顆粒之外,如果要拓展容量就只能佔用更多的平面空間(在PCB上敷設更多顆粒並使用更長的連線)。HBM顯存改變了這一傳統,將顆粒集中在一起並向“上”進行了空間的延伸,在相同的“佔地面積”下,HBM顯存能夠實現數倍於傳統顯存的存儲容量。
堆疊內存
無論內存、顯存或者SSD,甚至是手機/平板電腦的NAND,傳統DRAM體系在提升容量時都會受到來自PCB面積的約束,互聯線長/帶寬以及通訊延遲也會隨之增大。相對於傳統內存,堆疊顯存所做的改進在於將若干片DRAM顆粒垂直疊放在一起,這相當於使用同樣的PCB面積佈置了比過去多數倍的DRAM顆粒。不僅如此,因為樓房樓層的垂直距離短於平面延伸平房的距離,人與人之間的物理距離也比平房時縮短了許多,溝通更加便利且可以實現更大規模的並行化通訊。所以相對於傳統內存,堆疊內存的聯線、帶寬以及延遲均擁有很大的優勢。
堆疊內存結構
HBM顯存的出現帶來了很多與過去截然不同的存儲模式,它將更多顆粒佈置在了更小的面積當中,這在提升容量和帶寬的同時也導致了新的問題,那就是內存控制器所面臨的管理層級和管理範圍有了顯著的變化。突然激增的內存顆粒和並行存儲鏈路對內存控制器提出了極大的挑戰,如果依舊採用傳統結構,讓全部內存顆粒都去對應單一且統一的內存控制器的話,GPU芯片可能要做到巴掌大。
擁有Base Die的HBM內存(圖片源自後藤弘茂blog)
為了解決這一問題,HBM顯存在解決內存控制器瓶頸的過程中也引入了一級新的溝通機制,每一簇HBM顯存顆粒的最底層都擁有獨立的Base Die,其上集成了能夠管理整簇堆疊顆粒的芯片,這些芯片將與內存控制器直接溝通,可被用來收集堆疊顆粒當中的數據、並幫助內存控制器對其實施管理。在HBM顯存體系當中,內存控制器的規模不僅不會放大,甚至還會出現一定程度的縮減,它只需要面向這些Base Die當中的芯片即可,對每簇顆粒當中各層DRAM的管理將由Base Die完成。
互聯的秘密——TSV
整個HBM顯存體系最大的實踐難點並不是內存控制體系的變動,而是互聯問題的解決。堆疊之所以被稱之為“堆疊”,就是因為其將若干片DRAM顆粒摞在一起放置的形式,這種堆疊方式不僅節約空間,而且能夠帶來更短的顆粒間距進而縮短信號傳輸路徑及延遲,但這些顆粒不是光放在一起就能解決問題的,你還必須想辦法把它們連起來才行。這個互聯的過程成了困擾堆疊內存的最根本問題,直到TSV技術成熟的之後才得以解決。
意法半導體實現的TSV工藝
HBM顯存所採用的TSV技術本質上就是在保證結構強度的前提下在芯片(矽)上直接垂直通孔,廠商會採用名為穿透矽的技術對DRAM顆粒的邊緣或特定位置進行穿孔處理,然後以這些孔為通路進行佈線並完成垂直互聯。通孔過程看似簡單,但技術層面的進展一直相當不順利。無論存儲還是邏輯芯片的結構及加工過程都相當複雜,這注定了芯片本身的脆弱性,想要在不影響芯片強度以及完整性的前提下在一塊DRAM顆粒上打洞,而且是不止一個的孔洞,這件事兒的具體技術細節根本無需討論,光是想想就已經很難了。這種垂直互聯不僅距離更短而且延遲更低,這是HBM顯存的一大優勢。
複雜的垂直互聯構成了堆疊內存的“樓梯”
在演化出了分別對應不同的通孔時機的via middle和via last這兩大分支之後,TSV技術的發展已經日趨成熟,現代的穿透矽技術成功解決了穩定性及成本等問題。無論是先通孔的via middle還是最後通孔的via last,兩種工藝都可以實現穩定的DRAM顆粒通孔及互聯過程,並且能夠集成到當前的300mm wafer加工工藝當中,這給堆疊內存的實現鋪平了最後的道路。
豐儉由人
視堆疊方式及位置的不同,HBM顯存體係可以被分為2.5D和3D兩種存在形式。如果堆疊內存顆粒以及Base Die被封裝在PCB上並通過普通線路與運算核心完成水平互聯,這種封裝模式就是2.5D,我們即將見到的堆疊內存/顯存體系基本上均採用此種形式;如果堆疊內存顆粒及Base Die被直接封裝在運算核心上層並通過TSV與核心直接垂直互聯,這種封裝模式就是3D,SoC等需要更高集成度,同時對能耗及延遲十分敏感的場合將會是這種形式的理想方向。
2.5D/3D封裝堆疊內存
不同的封裝形式決定了堆疊顯存的應用範圍
由此技術特徵可知,2.5D封裝是一種將堆疊顯存顆粒置於PCB上的水平封裝形式,在2.5D封裝形式當中,顯存顆粒與GPU芯片是獨立且平行存在的。採用2.5D封裝形式的HBM顯存不可能與GPU封裝在同一枚芯片內,即便封裝的很近,甚至置於同一個保護蓋下,兩者也不可能融合成同一枚芯片。AMD所選擇的,正是這種封裝形式。
2.5D/3D封裝堆疊內存
除了堆疊形式不同之外,堆疊內存還依標準不同而劃分成了兩大陣營,分別是海力士+AMD支持的HBM(High Bandwidth Memory)以及Intel支持、鎂光/三星主導的
HMC(Hybrid Memory Cube)聯盟。
無論HBM還是HMC,在基本結構上都屬於原教旨型的2.5D/3D堆疊內存,它們均採用多片DRAM+Base Die/Logic Die垂直堆疊封裝的形式,可以以2.5D的形式被用於內存以及顯存等場合,也可以以3D的形式與SoC芯片封裝在一起。兩者的主要區別體現在DRAM運行頻率、總位寬、發熱以及擴展性層面。相比於HMC,HBM的先期頻率和帶寬相對較低,但與之相對應的,HBM因此而獲得了更低的工作電壓,在能耗及發熱表現上應該會有值得期待的表現,同時在部署時機上也具有優勢。
HMC內存
按照海力士以及AMD公佈的試產產品數據,HBM在作為顯存出現時可以提供8通道1024bit起跳的顯存位寬,搭配適當頻率顆粒(等效頻率在2000~3600MHz左右,約等於GDDR4的水平)時可以提供超過128GB/s,最大可至512GB/s的等效帶寬,在此基礎上還能實現40%的功耗下降。隨著工藝的成熟穩定,HBM所能夠帶來的帶寬數字可能會進一步提升至640GB/S甚至更高。
HBM內存
在支持情況上,HBM顯存目前只有海力士和AMD明確支持,HMC則擁有包括Intel,微軟,NVIDIA,ARM,IBM,HP,三星以及鎂光等在內的一系列廠商所組成的聯盟,海力士也包含在其中。所以以目前的狀況來看,HMC可能會在未來統一堆疊內存業界,包括AMD在內的幾乎所有人都將會提供支持。不過以現在這個時間點來看,能夠讓AMD選擇的堆疊方案只有部署速度更快的HBM。
AMD的黎明之光
部署HBM顯存對於AMD而言是相當明確而且重要的機會,它讓AMD具備了多個非常有價值的突破節點。整個市場的格局,AN雙方的競爭態勢甚至是今後AMD邏輯架構的研發形式都將會因此而發生深刻的改變。
首先,在最直管的層面上,HBM顯存能夠帶來遠遠超過當前GDDR5所能夠提供的帶寬上限,這無疑能夠相當直觀地提升AMD下代GPU在應對高分辨率以及高解析度材質時的性能表現。HBM顯存還可以在同樣的PCB面積佔用量上實現翻倍甚至數倍的內存容量,而且並不會因此而導致功耗及發熱的激增,這將大幅拉低存儲體系的單位成本,同時減少對PCB面積的依賴。AMD下代旗艦顯卡的“瘦身”,將會藉由HBM顯存的列裝而完成。
AMD的未來希望——Fiji
接下來,源於大並行存儲的特性,HBM顯存需要引入了一級新的溝通機制,亦即獨立於每一顆TSV顆粒最底層的Base Die,其上集成了能夠管理整簇堆疊顆粒的芯片,這種二級存儲管理機制的引入從本質上改變了GPU MC的結構設計。儘管顯存位寬和容量均已激增,但基於堆疊顯存的顯存控制器的規模不僅不會如當下那樣需要進行數倍的放大,甚至其整體規模和工作量還會有進一步的縮減。MC不再需要像現行結構這樣直管所有DRAM以及地址,它只需要面向Base Die即可,對每簇顆粒當中各層DRAM的管理將由Base Die完成,工作模式的改變正是MC結構發生變化的最根本原因。
不同的封裝形式能夠進一步拓展堆疊內存的應用範圍
以此為誘因,隨著HBM顯存的列裝以及MC結構的大改,Base Die將帶走相當一部分傳統MC結構所進行的工作,原本核心內部的晶體管以及資源壓力得以外洩,GPU架構的工作狀態將發生很大的改觀,傳統的由後端工作所導致的能耗將會減少,GPU內部因此而獲得了更多空間餘量和資源餘量。對於邏輯結構設計者來說,無論修改ALU團簇、任務管理機制以及cache等基本邏輯結構還是進一步放大運算單元規模都有了更充分的餘地。
事實上這並不是AMD第一次擁有“以MC換資源”的機會,早在上代的Hawaii架構當中,AMD就曾經藉由大幅改進MC單元的結構設計來緩解由D線壓迫所導致的核心內部資源緊張問題。R9-290X的表現,可以說完全是由AMD在MC結構上的華麗轉身所帶來的。如今,更為徹底的一次轉身的機會擺在了AMD面簽,如果能夠抓住並善加利用,AMD GPU架構的未來無疑將會擁有更多的希望。
Hawaii身上所體現的“取捨的藝術”便來自MC結構的改進
除此之外,HBM顯存還能夠通過減少互聯線長明顯降低了信號延遲,這將對顯存體系的性能提升同樣能產生推動作用。所有受延遲因素影響的邏輯運算單元都將會因此而面臨新的提升。更大的內存帶寬搭配更低的延遲不僅能夠給CPU/GPU的更高效運算提供保障,還會深刻的影響邏輯結構的研發方向。未來一直兩個產品週期內,我們將會因此而迎來CPU/GPU架構及性能的新一輪革命。
最關鍵的是,除了上述這些經由技術改變所直接導致的機遇之外,HBM顯存的列裝還帶來了一個非常有趣而且積極正面的“隱性促進”——它再次喚醒了很多已經淡出顯卡圈的玩家們的熱情和關注。全新的顯存形式可以說是近三年來最容易被人理解的重大技術革新,單純從營造新鮮感和衝擊感的角度來講,HBM顯存無疑是相當出色的,它所帶來的提升直觀而且貼近公眾最容易理解的部分,即便它最終沒有為AMD帶來足夠顛覆性的前進,光是再次喚醒大家對顯卡的熱情就夠了。
新的革命,將從這裡開始
毋庸置疑,HBM顯存是一次顯卡的重要革命,在經歷了多年單純的速度/頻率/信號傳輸模式發展之後,顯存終於從2維走向了3維空間,實現了存儲模式的本質變化,我們甚至可以認為HBM顯存是顯存體係發展史上的“第一次直立行走”。可以預見的是,只要抓住這次機會,充分利用HBM顯存所帶來的各種有利要素,AMD肯定可以為自己的未來打開一扇明亮的大門。甚至整個顯卡業界,都將會因此而迎來嶄新的局面。我們衷心希望AMD能夠充分利用這次機會,將我們再次帶回顯卡曾經的輝煌歲月。
更深入的HBM技術詳解文章,感覺這項技術未來應該會有更多顯卡會採用才對
|