DeepSeek訓練R1模型的成本爭議震驚了市場,但似乎存在著許多欺騙,因為實際數字確實令人驚訝。
在深入了解DeepSeek使用的實際硬體之前,讓我們先來看看業界最初的看法。據稱DeepSeek僅花費500萬美元打造其R1模型,其價格與OpenAI GPT的o1相當,引發了散戶恐慌,並在美國股市有所體現;不過現在塵埃已落定,讓我們來看看實際數據。
對於那些不知道的人來說,DeepSeek據說是中國對沖基金High-Flyer的一個附帶項目,而SemiAnalysis的報告稱他們在2021年購買了10,000台NVIDIA的A100,當時出口限制還沒有那麼嚴厲。後來由於母公司High-Flyer決定剝離該項目,DeepSeek逐漸發展成為一個獨立的實體,該項目才真正開始起飛。由此他們開始累積計算資源。
報導稱DeepSeek擁有約10,000塊NVIDIA中國專用H800 AI GPU和10,000塊高階H100 AI晶片。此外該公司還投資了NVIDIA的H20 AI加速器,並且擁有一個資源池,供DeepSeek和High-Flyer共享用於交易、推理、訓練和研究。這意味著DeepSeek的資本支出約為16億美元,而營運成本據傳約為9.44億美元。這些數字大約比市場最初預期的高出四百倍。
需要澄清的是初始數字據說是運行最終模型可能涉及的培訓成本的特定部分。 DeepSeek真正擅長的一件事是透過在當地頂尖大學舉辦招募活動來利用當地人才,特定員工的薪水超過130萬美元。 DeepSeek R1模型背後的大腦確實能夠想出一個有效的解決方案來與OpenAI等公司競爭,但誤報的財務數據成為上週黑天鵝事件的催化劑,
消息來源 |