不用獨顯也能跑AI Intel和AMD罕見達成共識

最近Intel與AMD共同發布完整ACE CPU擴展規範，這套面向AI運算的全新指令集落地x86架構，通過優化矩陣乘法實現更高能效與計算密度，大幅降低CPU本地運行AI模型的門檻。

贊助商廣告

日常AI推理大多依靠GPU完成，但輕量化模型、低延遲任務或是無獨顯設備，更適合直接在CPU運行，但傳統AVX10向量指令並非為矩陣運算打造，執行AI核心矩陣乘法時功耗高、效率偏低。

ACE基於現有AVX10寄存器拓展，新增專用硬體單元處理矩陣計算，無需重新設計底層架構，廠商適配成本更低。

官方數據顯示，同等輸入向量規模下，ACE計算密度是AVX10的16倍，單條指令可完成更多計算，減少指令調度開銷，記憶體頻寬利用率同步提升，同時功耗控制更出色，不過16倍計算密度不代表直接16倍提速，最終性能取決於兩家處理器後續硬體設計。

該指令集跨廠商通用，開發者僅需編寫一套代碼，就能適配Intel、AMD全系支持ACE的CPU，不用針對不同AVX版本做多套適配，PyTorch、TensorFlow等主流AI框架均可無縫兼容，數據格式覆蓋 INT8、FP8、BF16等AI常用類型，還原生支持OCP MX塊縮放格式，填補AVX10的功能空白。

對於開發者而言，部分臨時NPU算力需求可轉移至CPU處理，無需適配各家規格不一的 NPU硬體，未來新一代x86處理器將搭載ACE擴展，筆記本、台式機、伺服器無需依賴獨顯，就能流暢運行各類本地 AI 任務，進一步拓寬端側AI落地場景。