Google：CPU才是領先的人工智慧推理工作負載，而不是GPU

sxs112.tw 發表於 2024-3-4 15:13:02

Google：CPU才是領先的人工智慧推理工作負載，而不是GPU

當今的人工智慧基礎設施主要是依靠GPU加速伺服器的擴展來推動的。身為全球最大的超大規模企業之一，Google指出根據其Google雲端服務雲端內部分析，CPU仍然是AI/ML工作負載的領先運算方式。在TechFieldDay活動期間，Google Cloud產品經理Brandon Royal發表演講解釋了CPU在當今AI遊戲中的地位。AI生命週期分為兩個部分：訓練和推理。在訓練過程中需要大量的運算能力和龐大的記憶體容量，以將不斷擴展的人工智慧模型裝入記憶體。GPT-4和Gemini等最新模型包含數十億個參數，需要數千個GPU或其他加速器並行工作才能有效訓練。

另一方面推理需要較少的計算強度，但仍受益於加速。預訓練模型在推理過程中進行最佳化和部署，以對新資料進行預測。雖然所需的計算量比訓練少，但延遲和吞吐量對於即時推理至關重要。Google發現雖然GPU非常適合訓練階段，但模型通常會在CPU上進行最佳化並運行推理。這意味著有些客戶出於多種原因選擇 CPU作為人工智慧推理的媒介。

這可能是成本和可用性的問題。CPU往往比高階GPU或專用人工智慧加速器更便宜、更容易取得。對於許多應用程式來說CPU以較低的成本提供足夠的推理效能。CPU還提供靈活性。由於大多數系統已經擁有CPU，因此它們為較小的AI模型提供了簡單的部署路徑。GPU通常需要專門的庫和驅動，而採用CPU的推理可以利用現有基礎設施。這使得將人工智慧整合到現有產品和工作流程中變得更加簡單。延遲和吞吐量的權衡也會發揮作用。GPU擅長大規模平行推理吞吐量。但CPU通常可以為即時請求提供較低的延遲。對於需要亞秒反應的線上推薦等應用程式來說，CPU推理可能是首選。

此外CPU推理最佳化正在迅速進展。在更快的時脈、更多的核心以及Intel AVX-512和AMX等新指令的推動下，效能不斷提高，AI工作負載可以單獨在CPU上平穩運行，如果伺服器配置多個插槽，則效能尤其好，這意味著擁有更多的AI引擎，伺服器可以高效處理數十億參數規模的AI模型。一般來說Intel指出多達200億個參數的模型在CPU上運作良好，而任何更大的參數都必須使用專門的加速器。

像GPT-4、Claude和Gemini這樣的AI模型都是巨大的模型，可以達到超過一兆的參數大小。然而它們是多模式的，這意味著它們處理文字和視訊。現實世界的企業工作負載可能是一個人工智慧模型，它推斷公司的本地文件來回答客戶支援問題。運行像GPT-4這樣的模型對於該解決方案來說是一種矯枉過正的行為。相較之下像LLAMA 2或Mistral這樣的小得多的模型可以非常好地滿足類似的目的，而不需要第三方API訪問，而是在有幾個CPU的本地或雲端伺服器上運行。這意味著更低的總擁有成本 (TCO) 和簡化的人工智慧管道。

消息來源

頁: [1]

XFastest 最夯的電腦領域's Archiver

Google：CPU才是領先的人工智慧推理工作負載，而不是GPU