在春節前我們體驗了NVIDIA DGX Spark Founders Edition這一台小巧但有力的桌面AI設備,GB10晶片加上128GB統一內存的設計確實讓我們印象深刻。而和GeForce顯卡一樣,NVIDIA的合作夥伴們也在GB10晶片的基礎上,結合各自的優勢,推出了各種不一樣的Spark,比如說我們今天要體驗的,來自新華三的LinSeer MegaCube。

硬體組成


我們以前體驗的產品,大多是屬於面向個人消費者的品牌和系列,而這次就有點不一樣了,新華三是一個面向政企用戶的公司。作為業內數字化及AI解決方案領導者,新華三的業務涉及商用伺服器、存儲和網路設備,而他們這次推出LinSeer MegaCube則是自家 「AI in ALL」戰略的自然延伸——也就是在提供雲服務的同時,也要將強勁的AI算力下沉至終端一側。

讓我們聚焦設備本身,從尺寸上來說,LinSeer MegaCube和DGX Spark Founders Edition差不多,相當迷你,配色都是金色,只不過MegaCube的金色更深一點。外觀方面,前面說到新華三的業務是To B為主,所以MegaCube的風格顯然偏向於商用設備。




接口方面, MegaCube和DGX Spark完全一樣。4個USB-C,其中1個用於供電,剩下3個是全功能的,也支持DP輸出。一個HDMI 2.1a接口。一個萬兆以太網接口。還有兩個QSFP光模塊口連著200G的ConnectX-7網卡,兩台MegaCube可以用DAC線直接連接,而從GB10到ConnectX網卡的連接規格是PCIe 5.0 x8。

這裡多說一句,因為新華三也有交換機方面的業務,所以他們在 MegaCube互聯上也有自己的一套硬體方案,如果有需要的話可以直接打包解決。
軟體部分
LinSeer MegaCube用的系統是DGX OS,是NVIDIA在Ubuntu 24.04上修改而來的。預裝好了驅動和一系列軟體。同時,新華三為 MegaCube準備了圖靈智算平台,這是針對國內AI開發生態所做的一整套方案,也是 MegaCube有別於其他幾款GB10設備的最大特色。
圖靈智算平台由幾個部分組成,首先是圖靈模鏡(https://nim.turingcm.com),作為NVIDIA授權的三家中國NIM合作夥伴之一,你可以在上面下載很多NVIDIA NGC目錄同款的模型,比如說GLM-5和Qwen3 Coder Next,圖靈模鏡里都有。

NVIDIA NIM很大一個優勢就是隱去了很多設置的細節,開機即用,不需要在推理框架這些方面忙活。用戶直接用docker部署就行。網頁上也提供了對應的指南。相比從NVIDIA NGC目錄中拉取,圖靈模鏡由於伺服器在國內,我們顯然能獲得一個更穩定且速度更快的體驗。對於部分企業來說,圖靈模鏡還解決了合規性問題,可以讓大家放心用。
圖靈智算平台的第二大特色便是圖靈小鎮,或者說是算力市場。它提供了來自雲端GPU集群的澎湃算力。MegaCube做不到的事情,比如說訓練模型,可以在算力平台充值圖靈幣,讓更高性能的計算卡去做。

總的來說,MegaCube和圖靈小鎮主打的是一個相互配合的關係,桌面級AI超算、預裝好的開發環境和雲服務的有機結合,講的就是一個開機即用,滿足不同算力場景需求。更進一步地,基於 MegaCube 這種開機即用的特性,新華三為不同的行業帶來了靈活運用AI的方案。比如說針對教育行業的AIGC實訓室計劃,在這個構想裡面,每個人都可以在自己的MegaCube 上進行模型部署和AIGC學習,而不用排隊共享伺服器,算力的獨享可以讓學習的過程提速。
同時,在《國務院關於深入實施 「人工智慧 +」 行動的意見》、《關於加快招標投標領域人工智慧推廣應用的實施意見》等重要文件先後發布,國家深入推進人工智慧戰略如火如荼之時,新華三也積極響應,針對政企單位常見的招投標場景,基於MegaCube打造了開箱即用的招投標監管一體機方案。以單台MegaCube為例,它可在10-15分鐘內完成10份標書文件檢測。在招標文件審查這塊速度夠快之餘,圍串標識別的準確率還足夠高。更重要的是,得益於足夠強的設備端算力,MegaCube可以在不聯網,物理隔離的情況下運行檢測,符合招標方的合規要求,是利用人工智慧發展新質生產力的有力支持。
憑藉GB10超級晶片和128GB統一內存的能力,LinSeer MegaCube單機就可以對高達200B參數的模型進行推理,以及微調70B參數的模型。
ComfyUI創作
還是先來看看最常用的創作工具ComfyUI吧。目前,ComfyUI還沒有針對GB10超級晶片出一個整合好的版本,因此我們就只能手動安裝了。實際上這也不麻煩,照著官方文檔那樣,先創建虛擬環境,裝好pytorch,把ComfyUI的倉庫克隆下來,安裝好依賴就可以了。
從終端的啟動資訊可以看到ComfyUI已經支持NVFP4、FP8等格式了。NVFP4是Blackwell架構引入的一種更加高效的新格式,顯存占用更低。如果你看見CUDA報錯也不用擔心,重新編譯一次comfy-kitchen就好。

ComfyUI的用法就不用特意介紹一遍了。重點還是NVFP4模型帶來的速度提升,比如Z-Image Turbo、FLUX.2這些圖片生成模型,NVFP4版本的生成時間比BF16少4秒多,同時圖片質量其實差不多。像LTX-2這種音影片模型節省的時間就更多了,同樣的設置,NVFP4版本能在2分鐘內完成,BF16要花3分鐘。




LLM運行
基於llama.cpp的LM Studio
在LinSeer MegaCube上運行LLM有很多種方法,最簡單的莫過於LM Studio這款llama.cpp的應用。在這裡我們正好可以試一試階躍星辰不久前推出的Step 3.5 Flash。根據官方的說明,Step 3.5 Flash的int4 gguf模型可以說正好是為LinSeer MegaCube這類擁有128GB統一內存的設備而設的。把模型導入到LM Studio非常簡單,改一下模型目錄就完事了,剩下的都是點點鼠標的操作,不需要用到終端。

vLLM和TensorRT
接下來我們會用到vLLM和TensorRT-LLM,前者不用多說,非常主流,後者則是NVIDIA自家的推理框架,專為NVIDIA GPU打造。和前面的LM Studio相比,它們的操作是有點複雜,基本上是終端不離手。
不過有一件好事就是,以上兩個框架都在NVIDIA NGC中提供了docker鏡像,直接拉下來就能用,至少免去了安裝這一步驟。而NVIDIA提供的Playbook裡面提供了非常詳細的指南,如果你的網路比較通暢,能夠直連Hugging Face,那直接複製粘貼這堆命令下來運行也不是什麼問題。不過我更喜歡從魔搭社區下載模型,然後把這些命令換成腳本,這樣省事很多。

NVIDIA NGC Catalog
具體的性能測試方面,我們選擇比較成熟的Qwen 3 30B A3B系列。在這裡我們可以看到Blackwell架構新增的FP4精度所帶來的效率提升。同樣的參數設置下,NVFP4量化比FP8、BF16這些格式擁有更高的吞吐量,同時延遲更低。


如果你使用TensorRT-LLM這一款專為NVIDIA GPU優化的框架,你能發現效率還能進一步提升。從測試數據中你可以看到,隨著並發數的提升,TensorRT-LLM的優勢也逐漸增大。一般來說,TensorRT-LLM更適合實際部署,畢竟它的性能更好,且穩定。


而想要體驗最新推出的模型,則還是用vLLM這種更新頻率比較高的框架會更好。比如新鮮出爐的Qwen3.5-122B-A10B,根據vLLM Recipes的指南,我們使用了vLLM Nightly版本去運行它。當然,運行的版本也是社區的NVFP4量化版。雖然部分啟動參數相比於上面的測試有所更改,但是從輸出速度來看,MegaCube的表現確實不錯,單用戶使用時能達到35tok/s以上。

自年初以來,OpenClaw這隻賽博龍蝦的熱度可以說是節節攀升。而目前大部分OpenClaw的本體雖說是裝在本地,但AI算力還是要雲端來提供——畢竟普通PC的顯存容量相對較小,無法很好地一個讓OpenClaw能夠充分發揮的大模型。不過對於擁有128GB統一內存的MegaCube來說,開一個少燒點雲端Token的「真·本地龍蝦養殖場」是完全有可能的!
目前新華三MegaCube已經支持預裝OpenClaw + 本地部署Qwen3.5-122B,可以開箱即用,這十分適合沒有技術基礎但又想體驗前沿技術的用戶。而我們這部分是在前面測試的基礎上進一步擴展的,適合想要自己設置模型的AI愛好者。

首先我們還是先讓模型跑起來,也就是繼續用vLLM Nightly運行Qwen3.5-122B-A10B-NVFP4。不過因為OpenClaw需要調用工具,而且使用場景偏向單人,因此我們還根據vLLM Recipes調整了部分參數,比如啟用了MTP-1推測解碼。附帶一提,如果想要OpenClaw的響應速度快一點,可以切換到更小參數量的模型,比如在影片裡面,我們用的是Qwen3.5-35B-A3B-NVFP4。

相比調整vLLM參數,安裝OpenClaw本體和飛書插件倒是相當簡單。在這裡先假定你沒有在MegaCube上配置Node.js,直接使用OpenClaw的一鍵安裝命令就能完成所有的步驟,之後快進到首次配置也就是OpenClaw onboard了。

在OpenClaw onboard中提供了vLLM這一模型提供商,由於是本地運行的模型,API Key這個隨便填也無所謂,重點還是把模型的名字寫對。至於飛書插件的安裝,現在已經很簡單了,甚至能通過手機掃碼的方式,一鍵創建連接OpenClaw的飛書機器人,這點就還請參照飛書團隊的文檔吧。



安裝完成後,怎麼用OpenClaw就交由大家的自行發揮了。本地龍蝦有幾個好處:第一自然是費用的問題,單台MegaCube運行120B級別的模型已經能做到相當多的事情,你完全可以將一些日常事務交給本地模型,從而在雲端API這塊少花點錢;第二便是來自於自由度,在滿足軟硬體要求的前提下,你想在MegaCube上跑什麼開源模型都可以,無論是國內的Qwen、MiniMax,還是國外的gpt-oss、Nemotron,也就幾行啟動參數的事;第三就是大家常常念叨的隱私問題了,MegaCube的運算全部在本地進行,拔掉網線並不會影響其核心功能——當然,這是略微激進點的舉例,為了讓網頁搜索、飛書機器人等插件保持運作,非必要的情況下還是保持聯網吧。

最後不得不提的一點是,MegaCube運行時十分安靜。就算它放在離我30cm不到的地方,在GPU占用率保持95%的時候,我仍然難以察覺其風扇噪音。考慮到OpenClaw是一款全天候運行的AI助手應用,MegaCube的這種「無感」設計相當重要。
前面說到了LinSeer MegaCube可以多機堆疊。2台 MegaCube可以直接拿DAC線互聯,實現256GB的統一內存。這時候,它們能跑的模型就更多了,得益於RoCE無損網路級聯,兩台最高可支持 405B 參數的模型推理。如果藉助新華三S9855-40B這樣的高性能 200G交換機,多台MegaCube甚至能運行671B級別的模型。

當然,我們還是從2台互聯開始做起。用DAC線把2台LinSeer MegaCube連起來只是第一步。在這裡可以參考Playbook的做法,先給2台LinSeer MegaCube分配好IP位址,設置SSH無密碼登錄。多說一句,可以在這裡順便設置了個埠轉發,這樣就可以在主機上訪問到第二台機的DGX Dashboard。

vLLM和Tensor-LLM都支持多機互聯,其中vLLM用的分布式計算框架是Ray,Tensor-LLM則是OpenMPI。以TensorRT LLM為例,因為它要利用OpenMPI進行分布式運算,所以需要先創建一份host表,把2台機器的IP都寫進去。然後再在單機運行的腳本上加入一堆和互聯有關的環境變量,以及一個啟動SSH伺服器的腳本。把MPI的host表複製到主機的容器後,接下來的操作就和單機運行時無異,只是運行的參數有一點修改,你可以看到在trtllm-serve前面加了mpirun、trtllm-llmapi-launch這些命令,都是跟多機並聯有關的。

這裡我們展示的是Playbook同款的Tensor-LLM運行Qwen-3-235B-A22B-NVFP4。這個模型在每台MegaCube上大約占了80GB的內存,算下來一共是160GB左右,剩餘的空間稱得上相當充裕。至於速度方面,這吐字速度也是不錯的。如果啟用Eagle-3推測解碼,速度還能更快一點。

值得一提的是,上面提到的招投標一體機方案還支持雙機並行的設置。根據新華三提供的數據,雙機運行檢測應用時,7-9分鐘即可核查單文件46個檢測點,且準確率遠高於業界整體水平。這種解決方案以及工作效率提升可以說是人工智慧助力傳統場景業務轉型,貫徹落實國家關於人工智慧發展戰略相關精神的優秀例證。而除了招投標外,目前需要AI賦能的場景可以說是只多不少,相信新華三在未來還會基於MegaCube帶來更多適合政企單位使用,合規且高效的應用。

從上面的操作可以看出,LinSeer MegaCube體積雖小,但可以運行的模型卻很大,一些平時可能要三、四張顯卡才能跑得起來的模型,也許一台MegaCube就能解決,實在不行,還能再來一台。得益於先進的Blackwell架構和充分的社區支持,MegaCube可以讓你不錯過AI領域的任何熱點,無論是體驗新模型還是安裝像OpenClaw這類的AI工具,這台小機器也不在話下。同時,在軟體層面, MegaCube也是十分出彩,除了NVIDIA提供的一系列手把手教學的Playbook外,新華三的圖靈智算平台更是這台小機器的堅實後盾,雲端的圖靈小鎮和本地的MeagCube相配合,可讓算力不再成為限制。不管是作為AI教學設備,還是作為AI開發用機,MegaCube都已經準備完畢,可以隨時出發。






