作為上周Google Cloud Next 2025大會前的預簡報以及主旨演講期間,谷歌高層不斷將一組「Ironwood」 TPU v7p系統的Pod與蘿倫斯利弗莫爾國家實驗室的「El Capitan」超級電腦進行對比。他們反覆這麼做,而且方式錯誤,這讓我們感到非常惱火。
在大規模AI系統方面,進行這樣的比較是完全合理的,即便在一種情況下(El Capitan)該機器的主要用途是運行傳統的高性能計算(HPC)仿真和建模工作負載,而在另一種情況下(Ironwood Pod)該機器根本無法進行高精度浮點計算,實際上只是為了進行AI訓練和推理。可以說,採用CPU和GPU混合架構進行計算的機器,由於其在數值類型和精度上的廣泛適用性以及能夠處理多種工作負載,更像是通用機器,而這種多用途的機器架構確實具有一定價值。
然而,事實證明,蘿倫斯利弗莫爾的El Capitan以及阿貢國家實驗室的「Aurora」等超大規模機器,完全可以與使用定製XPU加速器構建的機器相抗衡,歸功於美國能源部與超級電腦製造商之間達成的優惠協議,這些系統在性價比方面明顯優於谷歌自己使用設備的支付成本,並遠遠低於谷歌向客戶出租TPU進行AI工作負載時收取的費用。
下面是我們看到的一張問題圖表:
在這組數據中,谷歌將El Capitan的持續性能與採用44,544個AMD 「Antares-A」 Instinct MI300A混合CPU-GPU計算引擎的系統在64位浮點精度下運行High Performance LINPACK(HPL)基準測試的成績相比,後者是以理論峰值性能與配有9,216個TPU v7p計算引擎的Ironwood pod進行比較。
這是一個完全荒謬的比較,谷歌的高層本應該知道這一點,而且他們確實知道。但或許更重要的是,性能只是故事的一半。你還必須考慮計算成本。高性能必須以儘可能低的成本實現,而沒有人比美國能源部在獲取HPC設備方面獲得更好的優惠了。
在缺少大量數據的情況下,我們對現代AI/HPC系統進行了價格/性能分析,其中許多系統是基於CPU與GPU的組合構建的,其中GPU來自AMD或Nvidia,而CPU在原始計算能力方面並非特別關鍵。請看下圖:
我們意識到這個比較並不完美。谷歌和Amazon Web Services的定價包括租用系統三年的成本,當然這還包含了電力、冷卻、設施和管理費用。而對於圖中許多超級電腦,預算則涵蓋了三至四年期間的設施、電力和冷卻費用,我們盡力不將將機器投入使用及調試過程中所涉及到的一次性工程成本(NRE)計算在內。對於各個AI機器,我們在沒有相關資訊時對機器規模和成本做出了估計。
所有估計部分均以粗斜紅體標示,對於暫時無法做出估算的數據我們都以問號標明。
我們只顯示了通過3D環面互連連接在一起形成相當大規模Pod的TPU系統。因此,上一代僅能在2D環面拓撲下擴展到256個計算引擎的「Trillium」 TPU v6e系統未被納入對比。
正如你所預期的那樣,在過去的四年中,無論是FP64高精度處理,還是FP16和FP8低精度處理的成本都有所下降,而機器性能則持續提高。這本身是件好事。但機器的成本卻增長迅速,以至於我們如今所稱的「能力級」AI超級電腦價格已經高達數十億美元。(例如上圖中展示的xAI「Colossus」機器,於去年安裝。)
在上表中,我們計算了在長期承諾折扣(CUDs,與Amazon Web Services中的預留實例定價類似,可為長期租用提供折扣)下谷歌TPU pod的租用成本。傳統的HPC超級電腦通常在投入使用時可維持三年,有時甚至四年,因此這是一個很好的比較點。對於Ironwood TPU pod的估算價格,我們假設谷歌在從TPU v4 pod跳躍到TPU v5p pod時採取了較為激進的定價策略。
現在,為了解除混淆。一個Ironwood TPU v7p pod在FP16精度下的額定性能為21.26 exaflops,而在FP8精度下則翻倍達到42.52 exaflops。該Pod具有1.69 PB的HBM內存,我們估計其構建成本約為4.45億美元,三年租用成本超過11億美元。換算下來,谷歌使用由9,216個Ironwood TPU互聯組成的Ironwood pod,每Teraflops的成本大約為21美元,而租用成本大約為每Teraflops 52美元。
由惠普企業構建的El Capitan機器花費蘿倫斯利弗莫爾600萬美元美金(600百萬美元),這相當於在FP16精度下的峰值性能成本為每Teraflops 14美元。由於Intel在阿貢的「Aurora」機器上核銷了3億美元,導致該DOE實驗室僅花費2億美元購置這套AI/HPC系統,這台系統在FP16精度下的16.1 exaflops性能使得每Teraflops的成本僅為12美元。值得一提的是,Aurora機器所使用的「Ponte Vecchio」 GPU與El Capitan的MI300A CPU-GPU混合系統以及Ironwood pod的TPU v7p引擎不同,它們不支持FP8處理,但支持INT8處理,就像之前兩代在3D環面架構下使用的谷歌TPU一樣。
FP8和INT8格式在任何具備該功能且其工作負載能利用該功能的機器上,都能使價格/性能比翻倍;而FP4(Nvidia的「Blackwell」 GPU上提供,並將在未來的XPU AI計算引擎中添加)則再次將其翻倍。
我們基於HPC使用FP64性能、AI使用FP16性能進行歸一化處理以便簡單比較,但也增加了一欄用於FP8或INT8處理。各公司目前都會儘可能在訓練和推理過程中使用統一的浮點格式,最終INT16、INT8和INT4格式也將逐步被淘汰。
AWS P5 UltraCluster是由Nvidia 「Hopper」 H100 GPU構建的集群的典型代表,這些GPU在2022年末、2023年以及2024年初都在使用。我們計算了租用一台擁有20,000個GPU的集群的成本,並依據當時普遍的H100及其他系統成本反推了預估的購置成本。Microsoft Azure和Google Cloud建造類似設備以及向最終用戶出租其運算能力所需花費的大致相同。實際上,AWS和Microsoft已經鎖定了GPU實例的價格,而這種做法是否合法尚存爭議。
如果我們的估計正確,Ironwood pod的構建成本和客戶租用成本,大約只有這些具備類似性能的H100集群成本的三分之一,而且其使用的計算引擎數量還不到後者的一半(至少從插槽數量上來看是如此)。
但最後,我們必須明確一點。在峰值理論性能上,El Capitan在FP16和FP8精度下的性能要比Ironwood pod高2.05倍。Ironwood pod並不具備El Capitan 24倍的性能。的確,El Capitan在FP64精度下具有2.73 exaflops的峰值性能,而Ironwood則完全沒有,且El Capitan在HPL測試中以FP64模式獲得了1.74 exaflops的成績。
我們目前還沒有El Capitan的HPL-MxP測試結果,但預計將在2025年6月於漢堡舉行的ISC大會上公布。HPL-MxP使用大量混合精度計算以達到與全FP64計算在HPL測試中相同的結果,如今這種方法能提供大約一個數量級的有效性能提升。這種混合精度的使用預示了未來真正的HPC應用可通過調整和提升低精度計算來或者在相同硬體上完成更多工作,或者用更少的硬體完成相同工作量的方向。