找回密碼註冊
作者: sxs112.tw
查看: 5276
回復: 0

文章分享:

+ MORE精選文章:

+ MORE活動推薦:

Micron Crucial PRO D5 6400超頻版 玩家開

解銷更快的遊戲速度! 利用低延遲遊戲記憶體的強大功能 利用 Cruci ...

O11 VISION COMPACT 玩家開箱體驗分享活動

迷你身形 三面透視打造精緻PC視野新境界O11 VISION COMPACT 強強聯合 ...

2024 三星SD記憶卡 玩家開箱體驗分享活動

2024 PRO Plus SD 記憶卡 [*]為專業人士打造 [*]釋放極限速度 [*]多 ...

體驗極速WiFi 7!MSI Roamii BE Lite Mesh

MSI首款WiFi 7 Mesh系統登場-Roamii BE Lite Mesh System。Roamii ...

打印 上一主題 下一主題

[處理器 主機板] Tesla D1 AI晶片細節盤點:500億個電晶體、400W熱設計功耗

[複製鏈接]| 回復
跳轉到指定樓層
1#
sxs112.tw 發表於 2021-8-22 21:07:45 | 只看該作者 |只看大圖 回帖獎勵 |倒序瀏覽 |閱讀模式
近日的Tesla AI日活動上,Tesla公佈了最新的AI訓練晶片“D1”,規模龐大令人稱奇。該晶片採用台積電7nm製造,核心面積達645mm2,僅次於NVIDIA Ampere架構的超級計算核心A100(826mm2)、AMD CDNA2架構的下代計算核心Arcturus(750mm2左右),整合了多達500億個電晶體,相當於Intel Ponte Vecchio計算晶片的一半。其內部走線約18公里。
Tesla-D1-Chip (1).jpg

它整合了四個64位元CPU核心,擁有多達354個訓練節點,特別用於8×8乘法,支援FP32、BFP64、CFP8、INT16、INT8等各種資料指令格式,都是AI訓練相關的。
Tesla-D1-Chip-2 (1).jpg

Tesla稱D1晶片的FP32單精確度浮點計算性能達22.6TFlops,BF16/CFP8計算性能則可達362TFlops。為了支撐AI訓練的擴展性,它的互連頻寬非常驚人,最高可達10TB/s,由多達576個通道組成,每個通道的頻寬都有112Gbps。而實現這一切,熱設計功耗僅為400W。
Tesla-Tile-3.jpg

Tesla D1晶片可透過DIP(Dojo介面處理器)進行互連,25顆組成一個訓練單元(Training Tile),而且多個訓練單元可以繼續互連,單個對外頻寬高達36TB/s,每個方向都是9TB/s。如此龐然大物,耗電量和發熱都是相當可怕的,電流達18000A,覆蓋一個長方體散熱方案,散熱能力高達15kW。
Tesla-Tile-6 (1).jpg


Tesla展示了實驗室內部的一個訓練單元,頻率2GHz,計算性能最高9PFlops。
d9a4ea9d5095117.jpg


Tesla還用D1晶片,打造了一台AI超級電腦“ExaPOD”,配備120個訓練單元、3000顆D1晶片、1062000個訓練節點,FP16/CFP8訓練性能峰值1.1EFlops。
9e58bcbc79968a9.jpg


2e1954f4735367c.jpg

建成後它將是世界上最快的AI超級電腦,對比Tesla現在採用NVIDIA方案的超級電腦,成本差不多,但擁有4倍的性能、1.3倍的能效比、1/5的體積。

消息來源

您需要登錄後才可以回帖 登錄 | 註冊 |

本版積分規則

小黑屋|手機版|無圖浏覽|網站地圖|XFastest  

GMT+8, 2024-11-8 19:43 , Processed in 0.075692 second(s), 33 queries .

專業網站主機規劃 威利 100HUB.COM

© 2001-2018

快速回復 返回頂部 返回列表