NVIDIA DGX Spark評測：意想不到的小巧體積，技驚四座的AI能力

在去年的GTC 2025上，NVIDIA發布了一款迷你小主機，更確切點來說是桌面級AI超算：DGX Spark，它是CES 2025上Project DIGITS的具體實現。雖然這款產品發布得比較早，但是一直等到去年10月，這款產品才正式上市，並在近日來到我們的面前。當然，稍微遲了點也不全是壞事，畢竟在CES 2026上，NVIDIA推出了一系列首日可用的AI性能更新，可以為GeForce RTX、NVIDIA RTX PRO以及NVIDIA DGX Spark等桌面級Blackwell設備帶來顯著的效率升級。其中，如何有效運用第五代Tensor Cores支持的FP4精度更是這次更新的重點，我們會在下面具體測試。

贊助商廣告

贊助商廣告

DGX Spark的核心便是其NVIDIA GB10 Grace Blackwell超級晶片，它分成S-die和G-die，都基於台積電3nm製程工藝打造，並由先進的2.5D封裝工藝合二為一。

NVIDIA GB10 Grace Blackwell超級晶片

2.5D封裝

S-die包括CPU核心，以及記憶體控制器、影片輸出等子系統，這部分是由聯發科設計的。其CPU部分為20核Arm處理器，組成是10個Cortex-X925性能核加上10個Cortex-A725能效核。NVIDIA和聯發科在記憶體子系統這塊針對GPU記憶體流量做了大量的性能建模，保證其性能表現。

贊助商廣告
橙色部分是聯發科IP核，綠色部分則是NVIDIA IP核

由NVIDIA負責的G-die，也就是GPU部分，它基於Blackwell架構打造，擁有6144個CUDA Core，當然，也少不了第5代Tensor Core和第4代RT Cores，以及影片編解碼引擎。如果大夥對於GeForce RTX 50顯示卡很熟悉的話，我想6144這個數字應該不陌生——GeForce RTX 5070所用的GB205-300也是這個數。

CPU和GPU部分通過NVIDIA NVLink-C2C技術連接。C2C接口總頻寬可高達600GB/s。

記憶體方面，DGX Spark配置了128GB LPDDR5x-4266統一記憶體，位寬為256-bit，頻寬為273GB/s。這頻寬固然跟GDDR7沒法比，但128GB能放下的模型顯然是更多的——先得想想會不會OOM，再考慮速度問題，您說是不是？

硬碟的話，DGX Spark用的是M.2 2242規格的PCIe 5.0 x4 SSD，容量有1TB和4TB可選，我們手上的這台是4TB的。老實說，光看這記憶體和硬碟的配置，我都能很清楚地感受到金錢的重量。

DGX Spark的接口都在背後。它一共有4個USB-C接口，靠近電源鍵那個是僅用於供電的，剩下3個USB-C則是全功能的，支持數據傳輸和DP輸出，最高支持4K@120Hz。隔壁的則是HDMI 2.1a和10G RJ45電口。

贊助商廣告

剩下兩個矩形接口是QSFP光口，連接著200G的ConnectX-7智能網卡，這些接口是給DGX Spark堆疊用的。附帶一提，從GB10晶片到ConnectX-7之間的連接是PCIe 5.0 x8。

ConnectX-7智能網卡

使用PCIe 5.0高速連接

贊助商廣告
CES 2026媒體分享會上用於靜態展示的兩台DGX Spark

最後是功耗，DGX Spark的電源適配器是240W。GB10晶片本身的TDP就只是140W，剩下的100W會分給其他組件比如ConnectX-7、SSD等使用。不過大夥也知道一般不會真的用盡240W就是了，總會留點餘量的。

NVIDIA在DGX Spark上面的採取的策略跟顯卡是類似的，他們自家會先出一款Founders Edition，然後OEM合作夥伴們又會基於GB10推出各自品牌的系統，比如微星的EdgeXpert、聯想的ThinkStation PGX等。而我們收到的這款是本家的DGX Spark Founders Edition，相信大家在上面就已經知道了。

贊助商廣告

正如GeForce Founders Edition的獨特外觀一樣，DGX Spark Founders Edition的造型也是非常具有辨識度，單就這個金色的全金屬外殼就讓人覺得它不簡單。它的尺寸為150 x 150 x 50.5mm，介乎於Mac mini（M4和M4 Pro）和Mac Studio（M4 Max）之間，再考慮到它的具體規格，可以說就算是外置電源，NVIDIA也已經把DGX Spark做的足夠小巧了。

贊助商廣告

我要重點說一下DGX Spark前後的面板：它是實打實的金屬材質，是硬的，但看起來又像海綿一樣，布滿不規則的孔洞，為系統提供氣流通道。正因為這種視覺上的「軟」和觸覺上的「硬」同時展現在一台設備上，所以給人一種非常奇妙的感覺——嘿，這到底怎麼做到的？又因為這些孔洞密集而隨機，所以可以說每一台DGX Spark在外形上都是獨一無二的。

關於DGX OS

DGX Spark的作業系統名為DGX OS，是NVIDIA在Ubuntu 24.04上修改而來的。因此，它對於熟悉Linux特別是Ubuntu這一系的用戶來說，基本上不存在什麼上手難度，更何況，NVIDIA已經幫你預裝好了驅動，還有Docker、CUDA等一系列開發工具，可以說是開箱即用（當然，第一次啟動還是要進行時區、語言等設置就是了）。

只看表面，確實就是個Ubuntu...

在Linux上，終端總是不離手的。不過DGX OS提供了DGX Dashboard這樣一個網頁應用，它除了負責性能監控和JupyterLab的管理外，也承擔著更新系統的職能。這裡不是說「sudo apt update」等命令不能用，而是NVIDIA推薦這種方法，可確保DGX OS的性能最佳化。這裡我要多說一句，這裡我要多說一句，DGX Dashboard的系統更新是會在安裝完後直接重啟的，因此別在有活要乾的時候點系統更新。

贊助商廣告 DGX Dashboard主界面

哦對了，這裡多嘴一句：DGX Spark的固件是UEFI，啟動時按Esc或者Del鍵可以進入，裡面提供了啟動設備順序、TPM還有安全啟動等設置，就跟你常用的x86平台一樣。一般來說，日常使用中倒也不用管固件這塊的事情，除了系統恢復之外沒什麼進去的需要。

性能測試

NVIDIA提供了一系列內容豐富且詳實的DGX Spark Playbooks，可以幫助各位快速上手DGX Spark，從連接VS Code、安裝ComfyUI和vLLM，再到微調模型乃至多機堆疊什麽的都有詳細的教學。得益於DGX Spark已經預裝好了很多開發工具，我們終於可以跳過配置環境這一冗長又無聊的環節，直接照著Playbooks逐步熟悉就好。

不斷更新的DGX Spark Playbooks

在這裡我還要大力表揚NVIDIA NGC這個平台，提供了很多方便使用的服務。NGC Catalog可以說是包羅萬象，你能在裡面找到相當多已經配置好，得到優化的容器和模型，直接拖到DGX Spark上就能用（而且下載速度還很快）。這種軟體生態上帶來的便利性真的讓人覺得很舒服，爽飛了。

推理框架、開發環境和模型全部為NVIDIA GPU優化

AI創作：ComfyUI文生圖、文生影片工作流

還是先來測測大家常用的AI創作工具ComfyUI。關於它是怎麼安裝的在這裡就不多說了，按照Playbooks或者ComfyUI官方文檔操作就行。不過在我這裡需要重新編譯一次comfy-kitchen才能讓NVFP4加速生效，也不知道是哪裡出了問題。

贊助商廣告可以見到CUDA後端已經啟用並支持NVFP4量化

目前你能在Hugging Face或者ModelScope魔塔社區上能找到的FP4生圖生影片模型數量還是比較多的，比如FLUX.1、FLUX.2、Z-Image-Turbo、LTX-2等等，有官方提供的量化，也有社區的版本。這次我們的測試會把BF16、FP8和FP4三個版本都下載，看看它們在DGX Spark里有什麼區別。

BF16

FP8

Z-Image-Turbo是目前相當流行的圖像生成模型之一，在極短的步數內可產出高質量的圖片。我們測試採用的是ComfyUI官方提供的工作流，解析度設置是1024 x 1024，步數為8。可見使用了NVFP4量化的模型後，耗時可以說是直接減半，換句話說，BF16或FP8生成一張圖的時間，NVFP4能生成兩張。如果你要大量出圖，DGX Spark和NVFP4能為你節省大量的時間。

贊助商廣告

FLUX.2 [klein] 9B Base是來自Black Forest Labs的最新生圖模型。和上面一樣，我們用了ComfyUI官方提供的工作流，然後切換三個模型測試。因為是base模型，所以我們把步數加到了50，解析度就還是1024 x 1024不變。這一次，NVFP4的速度仍然是最快的，1分半就能生成一張圖。當然，從Ada Lovelace架構開始支持的FP8格式也不賴，只比NVFP4慢5秒。

對了，我們還通過nvtop這個應用查看了GB10在運行以上模型時的功耗情況，在使用BF16模型時，它的功耗最高可以到93-94W。NVFP4模型就還好，倒是沒發現超過80W的時候。

LTX-2就是NVIDIA在CES 2026上演示過的音頻影片模型。同樣的1280 x 720解析度，時長5秒，20步，NVFP4量化的模型只用2分鐘就生成了一個影片，耗時比FP8少10秒，比BF16少1分鐘有多。值得一提的是，由於DGX Spark的統一記憶體足夠大，所以在VAE解碼這塊特吃顯示記憶體的部分是能夠頂住的。

PEFT體驗：FLUX.1 Dreambooth LoRA微調

既然說到了AI創作，那多少也要說一下LoRA微調。由於LoRA模型所需的數據集和計算資源相比於訓練整個模型少得多且對基座模型的影響效果明顯，它已經成為了AI創作者們風格化工作流中必不可少的一個節點。然而，就算LoRA模型的要求再怎麼低，在微調時，整個基座模型還是得放進顯示記憶體中，接著才能加上訓練的消耗——如果不使用一些優化技巧，和降低訓練時的參數，可能32GB顯示記憶體的顯卡都夠嗆。

不過，看規格你也知道，對於DGX Spark來說，顯示記憶體完全不是問題。因為DGX Spark Playbooks正好提供了FLUX.1 Dreambooth LoRA微調的指南，所以我這裡就直接用它來演示了。說起來，Playbooks裡面提供的是腳本和Dockerfile，不得不說這操作還挺...全自動的。在耗費近1小時20分鐘，最高97GB顯示記憶體占用之後，我們得到了一個5.1GB的LoRA，可以讓FLUX.1 [dev]生成Toy Jensen——如果不使用LoRA，基座模型並不認識Toy Jensen是誰，同樣的種子下面，可能會把這個詞當成是一個普通的男人輸出。

贊助商廣告

有LoRA

無LoRA，僅基座模型

當然，1小時20分鐘和97GB顯示記憶體占用這些描述並不能很好地表現DGX Spark的優秀。因此我要討論一下Playbooks提供的訓練腳本，裡面的參數其實挺激進的，LoRA的rank和alpha都設置成了256。對於一般PC來說，這是個絕對會報錯的數值，因此我調整了一下這兩個參數，把它變得更「平易近人」一些，變為16，又練了個LoRA出來。

贊助商廣告

rank 16的lora仍然需要耗時1小時多一點，但顯示記憶體占用「僅」為65GB，比rank 256時少了整整32GB。模型容量也從5.1GB縮到了300MB。但是這也不是我真正想說的東西，我要說的是，更關鍵的地方在於效果：rank 256的LoRA所生成的Toy Jensen更加貼近數據集中的Toy Jensen，而rank 16的結果多少有點像是另一個人，臉型和髮型都不怎麼像。

rank 256 LoRA

贊助商廣告 rank 16 LoRA

簡單來說，DGX Spark的大記憶體可以讓你在微調參數上更加大膽，從而訓練出更貼近數據集的LoRA，讓最終生成的圖片少點基座模型的味，多點自己想要的風格。

大語言模型推理：vLLM和TensorRT-LLM

在大語言模型中，我們主要會用到主流的vLLM和NVIDIA自家的TensorRT-LLM兩個框架。和上面提到的一樣，直接在NGC Catalog裡面把鏡像拉到本地，再寫份簡單的腳本就可以跑了。另外，vLLM和TensorRT都提供了基準測試套件，這挺好的，我們就直接用它們的結果。如果是日常使用的話，掛個Open WebUI或者Cherry Studio這種前端就行，這裡就不展開了。

vLLM + Open WebUI是非常主流的配置了

在vLLM基準測試中，我們選的是vllm serve測試，也就是把DGX Spark當成是一台推理伺服器去測。模型上下文長度設置為4096，提示詞為100個，並發數為2、4、8、16、32。沒測1並發的原因是單次測試時間太長了，就算是100個提示詞也得被硬控20分鐘以上——只設置100個提示詞也是這個道理，越多耗時越長。

贊助商廣告

可見在同樣並發數設置下，NVFP4量化的Qwen3 32B在輸出Token吞吐量（Output token throughput）和每Token輸出時間（TPOT, Time per Output Token）上都比FP8量化版本的表現更好。

TensorRT-LLM的設置和vLLM可以說是大同小異，也有serve模式，基準測試參數也是差不多。因為Qwen3 32B FP8目前還沒在DGX Spark上獲得TensorRT-LLM的支持，所以我們就只跑了NVFP4版本的。不難看出，在TensorRT-LLM這種專為NVIDIA GPU而編寫的推理框架上，模型的吞吐量和輸出速度顯然是表現更好的。

另外我們還用TensorRT-LLM跑了OpenAI最新的開源模型gpt-oss-120b，它應該是目前單台DGX Spark所能支持的最大模型了。gpt-oss-120b的MoE權重經過MXFP4量化處理，因此它對記憶體的占用並沒有太高，在82GB左右。

贊助商廣告 TensorRT-LLM運行gpt-oss-120b時

值得一提的是，TensorRT-LLM並沒有像vLLM那樣，一開始就把記憶體吃滿到117GB。而是根據模型的參數量動態調整，比如Qwen3 32B FP4時，系統記憶體約為65 GB，而到了gpt-oss-120b時，占用的記憶體才會上升到82GB，這是比較好的一點。當然，如果你把DGX SPARK當成是一台推理伺服器那樣用的話，像vLLM那樣的記憶體預分配策略也沒什麼問題就是了。

TensorRT-LLM運行Qwen3 32B FP4時

除了運行以上的模型，NVIDIA還提供了TensorRT Model Optimizer這個工具讓你可以把別的模型量化成NVFP4格式，DGX Spark Playbooks中也有對應的內容。

首先要說明一點，你並不能把DGX Spark看作是一台普通的迷你主機，雖然你可以用它瀏覽網頁、看影片，甚至裝個Steam玩遊戲（我試過，用FEX確實可以做到），但是這些活動並不能體現它的真正價值。裝上ComfyUI、拉取vLLM和TensorRT-LLM的Docker鏡像，從HuggingFace上肆意下載30B以上的模型，然後運行或微調它們，讓它們成為不受網路限制、生成次數無限續杯而且更適合生產的工作幫手才是DGX Spark的正確用途。

也許會有人問，我現在手機上近有求索D老師，遠有谷歌哈基米，就本地運行AI對我來說真的那麼重要嗎？確實，對於一般用戶來說，這些應用是很足夠了。但對於注重隱私和數據安全的開發者，需要微調出自己風格LoRA的AI創作者，還有那些需要對AI本身進行研究的工程師等人群來說，DGX Spark就很有價值了。打個比方來說，它算得上AI設備中的多功能瑞士軍刀：無論是推理還是進行微調，一般PC能支持的模型是非常有限的，而DGX Spark的128GB統一記憶體則可以輕鬆吃下參數量較大的模型，從而為主力機減壓；它在速度上固然無法和雲端的伺服器相比，但可以在投入生產之前作為驗證想法，原型測試的平台，以免浪費寶貴的伺服器時長。更進一步的說，DGX Spark並不是要取代雲端（當然這也不可能），而是和雲端形成互補，讓整個開發流程的鏈條更順滑。

贊助商廣告

最後還是慣例：價格討論。DGX Spark的售價是——32999元！對於個人來說，這個價格門檻確實比較高。畢竟，這是一台專為數據科學和AI開發打造的設備，而不是像顯卡這種泛用度更高的組件，說真的，在家裡放一台DGX Spark純當AI伺服器這事，對於一般的AI創作愛好者來說還是超綱了。

然而，如果在工作上有AI方面的需要，那DGX Spark比起一般的設備來說又有其優勢：3萬塊出頭把CPU、GPU還有現在貴上天的記憶體硬碟給你包齊了，還多一塊智能網卡，多買幾台疊起來甚至能跑DeepSeek V3.2（NVFP4量化，394B）這種巨無霸，這真的挺香的。若是換成買同等顯示記憶體容量的多顯卡組工作站，不可否認那throughput和TPOT確實會比DGX Spark要好，但預算肯定剎不住車，就別說顯卡了，工作站平台本身就特貴。正如我在前面說到的那樣，能不能跑這個問題，有時是排在速度前面的，而DGX Spark就是有限預算內的一個優秀答案。