當今的人工智慧基礎設施主要是依靠GPU加速伺服器的擴展來推動的。身為全球最大的超大規模企業之一,Google指出根據其Google雲端服務雲端內部分析,CPU仍然是AI/ML工作負載的領先運算方式。在TechFieldDay活動期間,Google Cloud產品經理Brandon Royal發表演講解釋了CPU在當今AI遊戲中的地位。AI生命週期分為兩個部分:訓練和推理。在訓練過程中需要大量的運算能力和龐大的記憶體容量,以將不斷擴展的人工智慧模型裝入記憶體。GPT-4和Gemini等最新模型包含數十億個參數,需要數千個GPU或其他加速器並行工作才能有效訓練。
另一方面推理需要較少的計算強度,但仍受益於加速。預訓練模型在推理過程中進行最佳化和部署,以對新資料進行預測。雖然所需的計算量比訓練少,但延遲和吞吐量對於即時推理至關重要。Google發現雖然GPU非常適合訓練階段,但模型通常會在CPU上進行最佳化並運行推理。這意味著有些客戶出於多種原因選擇 CPU作為人工智慧推理的媒介。
這可能是成本和可用性的問題。CPU往往比高階GPU或專用人工智慧加速器更便宜、更容易取得。對於許多應用程式來說CPU以較低的成本提供足夠的推理效能。CPU還提供靈活性。由於大多數系統已經擁有CPU,因此它們為較小的AI模型提供了簡單的部署路徑。GPU通常需要專門的庫和驅動,而採用CPU的推理可以利用現有基礎設施。這使得將人工智慧整合到現有產品和工作流程中變得更加簡單。延遲和吞吐量的權衡也會發揮作用。GPU擅長大規模平行推理吞吐量。但CPU通常可以為即時請求提供較低的延遲。對於需要亞秒反應的線上推薦等應用程式來說,CPU推理可能是首選。
此外CPU推理最佳化正在迅速進展。在更快的時脈、更多的核心以及Intel AVX-512和AMX等新指令的推動下,效能不斷提高,AI工作負載可以單獨在CPU上平穩運行,如果伺服器配置多個插槽,則效能尤其好,這意味著擁有更多的AI引擎,伺服器可以高效處理數十億參數規模的AI模型。一般來說Intel指出多達200億個參數的模型在CPU上運作良好,而任何更大的參數都必須使用專門的加速器。
像GPT-4、Claude和Gemini這樣的AI模型都是巨大的模型,可以達到超過一兆的參數大小。然而它們是多模式的,這意味著它們處理文字和視訊。現實世界的企業工作負載可能是一個人工智慧模型,它推斷公司的本地文件來回答客戶支援問題。運行像GPT-4這樣的模型對於該解決方案來說是一種矯枉過正的行為。相較之下像LLAMA 2或Mistral這樣的小得多的模型可以非常好地滿足類似的目的,而不需要第三方API訪問,而是在有幾個CPU的本地或雲端伺服器上運行。這意味著更低的總擁有成本 (TCO) 和簡化的人工智慧管道。
消息來源 |