AMD在ISSCC 2023會議期間談到了計算的未來,闡述了其CPU和GPU在效率和性能方面的趨勢。
AMD首席執行官Lisa Su博士上台並通過強調過去10年取得的進步開始了演講。在ISSCC 2013上AMD談到了其最早的HSA APU之一Richland,它有多達13億個電晶體管、4核、4線程、單Die 32nm SOI製程和4MB總快取。快進到2023年,AMD現在在單個Die上提供900億個電晶體管、96個核心、192個線程,其中有13個小晶片,這些小晶片使用5nm和6nm製程以及386MB的快取。
這是過去10年取得的重大進步,根據過去十年的性能趨勢該行業每2.4年將主流伺服器性能提高2倍。GPU的情況也是如此,它們的性能每2年左右提高2倍。現在AMD已經成為業界第一家透過Frontier超級電腦突破Exascale壁壘的科技公司,所以下一個目標是達到更難的Zettascale大關。
鑑於每1.2年性能提高2倍,實現Zettascale將需要10年多一點的時間。那是透過利用目前可用的所有技術,但在效率方面它不是線性漸進式的性能。根據CPU和GPU效率趨勢,我們開始看到進展趨於平緩,因此雖然在未來10年左右實現Zettascale性能是可以實現的,但這將以顯著的成本為代價。
效率為2140 GF/Watt的Zettascale系統據說使用現代世界必須提供的當前建築能力消耗約500MW的功率。其中兩個系統將需要容量為1000 MW或1GW的實際功率。而且每2.2年效率增長2倍。
所以馬上你就可以知道需要發生一些激進的事情。甚至邏輯密度也對此做出了貢獻,並且還有一個相關的成本因素。製造頂級晶片也意味著人們將付出比上一代高得多的代價。此外就每比特能量而言,I/O互連也出現了整體扁平化。影響所有這些的另一個因素是記憶體和記憶體頻寬。隨著數據集變得越來越大,對更多容量和記憶體的巨大需求也導致更高的功率和成本。
AMD旨在透過為正確的工作負載使用正確的計算技術來解決這個問題。Lisa Su博士表示解決這一效率危機的最大槓桿是使用用於晶片的先進封裝技術,例如Instinct MI250X和EPYC Genoa。將晶片堆疊和封裝在一起也有助於降低相對Bits/Joule成本。到目前為止與這些晶片都是獨立的並且在電路板上相互遠離時相比,僅先進封裝一項就可以將通訊功率降低50倍。
這一旅程的下一個演變將以AMD Instinct MI300的形式出現,它在底部有高速快取和結構裸Die,CPU/GPU核心3D堆疊在它們之上,以及記憶體和互連結構的2.5D整合。AMD MI300加速器還有下一代統一記憶體APU架構,允許CPU和GPU核心共享相同的快速HBM記憶體。
MI300等晶片將幫助AMD加速其30x25目標,即到2025年將效率提高30倍。不過AMD還談到了未來的封裝和小晶片架構,它們將計算和記憶體更緊密地集成在一起,大約0.2 pj/bit和PIM(Processing-In-Memory)設計,將減少高達85%的訪問能量。AMD還透露他們正在與DARPA合作開發用於節能長距離的光通訊方法。
會議的亮點是未來系統級封裝架構的頂層框圖形式,該架構將在實現Zettascale性能方面發揮關鍵作用。AMD展示的晶片有先進的封裝功能,可實現計算元件和記憶體的最高效整合,以及透過低功耗和高頻寬光學元件實現的系統級通訊。
下一代APU架構結合了先進的2D/2.5D/3D封裝技術以及一系列特定領域的加速器、異構計算核心、高速晶片到晶片接口 (UCIe)、Co-Package Optics、記憶體層等等。總括來說我們可以在頂層打造13個小晶片,但我們將在未來幾年看到的最終版本肯定會有更多。
將所有這些結合起來將使AMD能夠在100MW下實現令人印象深刻的10,000 GFLOPs/Watt Zettascale系統,這遠低於現有技術的500MW設計。在小晶片和先進封裝技術方面,AMD無疑是行業領導者,看起來該公司可能會成為第一個突破Zetta規模壁壘的公司,就像他們在Exascale上所做的那樣。
消息來源
|