NVIDIA超大規模和HPC 業務副總裁兼總經理Ian Buck 最近在美國銀行證券2024 年全球技術大會上表示客戶正在投資數十億美元購買新的NVIDIA硬體,以跟上更新的AI大模型的需求,從而提高收入和生產力。
Buck表示競相建造大型資料中心的公司將特別受益,並在資料中心四到五年的使用壽命內獲得豐厚的回報,雲端供應商在購買GPU上花費的每一美元,四年內(透過提供算力服務GAAS)都能收回5美元。
如果用於推理,則更有利可圖,每花費1美元,在同樣的時間段內就能產生7美元的營業額,並且這個數字還在增長。
NVIDIA創辦人、總裁兼CEO黃仁勳和執行副總裁兼財務長Colette Kress先前也曾表達過同樣的觀點。他們先前曾表示借助CUDA演算法創新,NVIDIA將H100的LLM推斷速度提升至原來的3倍,這可以將Llama 3這類的模型的成本降低到原來的三分之一,而H200在推理性能上較H100幾乎翻了一倍,為生產部署帶來了巨大的價值。
例如使用7000億參數的LLama 3,單一HGX H200伺服器可以每秒輸出24000個Token,同時支援超過2400名用戶。這意味著以現有的定價來看託管Llama3的API供應商每花費1美元在NVIDIAHGX H200伺服器上,未來四年內就可從Llama3 token計費中賺取7美元收入。
圍繞Llama、Mistral 或Gemma 的AI 推理模型正在不斷發展,並由Token提供服務。 NVIDIA正在將開源AI 模型打包到名為Nvidia 推理微服務(NIM) 的容器中。
NVIDIA最新推出的Blackwell 針對推理進行了最佳化,支援FP4 和FP6 資料類型,在運行低強度AI 工作負載時可進一步提高能源效率。根據官方的數據與Hopper相比,Blackwell 練速度比H100快4倍,推斷速度快30倍,並且能夠即時運轉數兆數大語言模型生成式AI,可進一步將成本和能耗降低到原來的25分之一。
這似乎呼應了黃仁勳多次喊出的買的越多,省的越多的口號,但不可忽視的是NVIDIA GPU價格也在快速上漲。
消息來源 |