最近Intel與AMD共同發布完整ACE CPU擴展規範,這套面向AI運算的全新指令集落地x86架構,通過優化矩陣乘法實現更高能效與計算密度,大幅降低CPU本地運行AI模型的門檻。

日常AI推理大多依靠GPU完成,但輕量化模型、低延遲任務或是無獨顯設備,更適合直接在CPU運行,但傳統AVX10向量指令並非為矩陣運算打造,執行AI核心矩陣乘法時功耗高、效率偏低。
ACE基於現有AVX10寄存器拓展,新增專用硬體單元處理矩陣計算,無需重新設計底層架構,廠商適配成本更低。
官方數據顯示,同等輸入向量規模下,ACE計算密度是AVX10的16倍,單條指令可完成更多計算,減少指令調度開銷,記憶體頻寬利用率同步提升,同時功耗控制更出色,不過16倍計算密度不代表直接16倍提速,最終性能取決於兩家處理器後續硬體設計。
該指令集跨廠商通用,開發者僅需編寫一套代碼,就能適配Intel、AMD全系支持ACE的CPU,不用針對不同AVX版本做多套適配,PyTorch、TensorFlow等主流AI框架均可無縫兼容,數據格式覆蓋 INT8、FP8、BF16等AI常用類型,還原生支持OCP MX塊縮放格式,填補AVX10的功能空白。
對於開發者而言,部分臨時NPU算力需求可轉移至CPU處理,無需適配各家規格不一的 NPU硬體,未來新一代x86處理器將搭載ACE擴展,筆記本、台式機、伺服器無需依賴獨顯,就能流暢運行各類本地 AI 任務,進一步拓寬端側AI落地場景。






