GPU推動HPC普及,Tesla K10性能揭秘
這兩天時值國際超級計算大會,Intel推出了MIC多核架構的商品化品牌Xeon Phi,NVIDIA作為GPU計算陣營的代表也沒閑著,也向公眾展示了GPU計算在HPC領域的成就,並首次公開了Tesla K10的性能。
Top500的性能排名是基於Linpack Fortran矩陣數學測試而來的,這是一種雙精度運算,不過實際應用中基於單精確度的運算依然占相當大比例,這正是Tesla K10擅長的地方。
GPU計算卡在HPC中通常扮演輔助處理器的角色,它可以極大地提高HPC的峰值性能,四年前IBM“走鵑”電腦使用的就是AMD六核Optron處理器加IBM Cell輔助處理器的方式首次達到Petaflops千萬億級計算性能的。(國內的天河-1A也是處理器+輔助處理器的方式沖頂的,使用的輔助處理器就是NVIDIA Fermi架構的M2090計算卡)
NVIDIA在2007年正式推出Tesla計算卡,不過到2008年Tesla卡才具備基本的雙精度計算能力。2010年發佈的Tesla 20系列基於Fermi核心,支援GDDR5顯存內ECC糾錯,雙精度性能也大幅提升,相比傳統CPU方案,基於Tesla的HPC不僅更便宜,而且功耗更低,在散熱和能耗上可以節省大筆投資。
2012年上半年的Top500超級電腦中有58套系統使用了輔助處理器設計,其中53套基於NVIDIA Tesla計算卡,2套使用AMD顯卡,一套使用Intel剛剛定名的Xeon Phi處理器(ps:這才56套,還有2套是什麼輔助處理器沒提到)
Top500中使用GPU協助計算的平臺越來越多
排名前10的系統中有三套使用了Tesla計算卡,這一數值與一年前相比沒有變化,11-50排名中有4套,翻了一倍,51-100的HPC中增加200%,而101-500的系統中數量增加了680%,用NVIDIA Tesla事業部高級產品經理Sumit Gupta的話說,“GPU使得HPC更加大眾化,排名後400的系列中使用Tesla計算卡的系統達到前一年的8倍”。
他說實際上NVIDIA更關注的是不在Top500名單上的其他4000套HPC,NVIDIA的Tesla正在驅動HPC走向大眾化。借助GPU的能力,一些規模較小的大學也構建Top500級別的小型計算中心。
為此,NVIDIA已經不再像上一代Fermi架構那樣追求同步提升Tesla顯卡的單精確度和雙精度性能,其中使用兩顆GK104核心的Tesla K10主要面向單精確度運算需求,浮點性能可達4.58TFLOPS,搭配8GB GDDR5顯存。
基於GK110架構的Tesla K20主要面向雙精度運算,雙精度性能可達2TFlops,兩倍於Intel剛剛宣佈的Xeon Phi,二者都將在年底發佈。
K10上的每顆GPU都有160GB/s的頻寬,整塊顯卡則有320GB/s的吞吐頻寬,與50GB/s頻寬的Sandy Bridge架構的Xeon E5-2600相比,K10達到後者的6.4倍之多,即便與前代177.6GB/s頻寬的M2090相比也有近一倍提升。
說了這麼多,來看看Tesla K10真正的計算性能吧,對比的是上一代的M2090,當然測試基本都是基於單精確度運算的。
K10展示出了強大的性能,整體大約是M2090的2-3倍。
其中,Amber是分子動力學模型軟體,2009年時它在96顆X86處理器組成的伺服器上花了一天時間才完成了23558個原子大約46ns(納秒)的模擬運算,而使用8顆M2050計算卡一天內就可以完成52ns的運算,如果使用M2090則可以完成69ns的運算量。
到了今年,使用兩顆K10計算卡就可以完成66ns的運算量,如果也使用8塊K10運算的話那就可以完成四倍的運算量。
除了地震預測及分子動力學計算之外,K10同樣也適用于衛星影像處理、視頻增強、信號處理、電腦視覺、視頻轉碼以及數文書處理等領域,前提是對雙精度運算要求不高。
來源:theregiste
|