宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

西湖大學等機構聯合研究:機器人學得好,不是靠"死練",而是靠"遺傳好基因"

2026年05月15日 首頁 » 熱門科技

這項由西湖大學、浙江大學、清華大學、香港科技大學(廣州)以及北京智源人工智慧研究院聯合開展的研究,於2026年5月發表在預印本平台arXiv上,論文編號為arXiv:2605.10903。感興趣的讀者可以通過這個編號檢索到完整原文。

機器人在當今社會越來越常見,從工廠流水線到醫院手術室,再到家庭服務,人們對機器人的期待也越來越高。但有一個令研究者頭疼的問題長期懸而未決:那些經過大規模訓練的"聰明"機器人,在面對新的具體任務時,往往表現得令人失望——它們不僅學得慢,有時甚至不如從零開始訓練的專用機器人。

這就好比培養了一個博覽群書、見多識廣的通才,結果他去應聘一份專業工作時,卻比一個只專注學這一門手藝的學徒表現還差。這種反常現象背後的根源,以及如何系統性地解決它,正是這篇論文所要探討的核心問題。

研究團隊提出了一種名為"能力向量"(CapVector)的全新方法,其核心思想可以用一句話概括:與其讓機器人每次訓練新任務時都從頭開始積累能力,不如事先把那些寶貴的通用能力"刻進"機器人的基因里,讓它天生就具備這些本領。代碼、模型權重以及演示網站均已公開,研究成果向整個社區開放使用。

---

一、機器人學習面臨的真正困境

要理解這項研究的意義,需要先弄清楚現代機器人是怎麼被"教會"幹活的。

目前最先進的機器人系統通常叫做"視覺-語言-動作模型"(VLA),這類模型可以理解圖像、聽懂語言指令,並將兩者結合起來控制機器人的肢體動作。訓練這樣一個模型,需要兩個階段:第一個階段叫"預訓練",耗費大量計算資源和時間,用海量的機器人操作數據訓練模型建立基礎認知;第二個階段叫"微調",用少量針對特定任務的演示數據,讓模型學會完成具體工作,比如抓取某種零件、擺放某類物品。

正常的邏輯是:預訓練打好地基,微調只需在上面蓋房子,應該既快又好。然而現實往往令人沮喪。大量研究發現,僅僅收集少量演示數據、進行標準的微調(學術上叫"監督微調",SFT),通常不足以讓模型在複雜任務上快速達到優秀水平,甚至有時候不如專門為該任務從頭訓練的模型。

為了突破這個瓶頸,研究界提出了一類"帶輔助目標的微調"方法。這類方法的思路是:在訓練機器人完成具體任務的同時,額外給它布置一些"輔助作業",比如要求它同時學會理解三維空間結構,或者鍛煉它的多模態推理能力。這就像是給一個學徒除了教他幹活,還同時讓他練視力、練邏輯思維。實驗證明,這類方法確實有效:模型不僅任務完成得更好,還學得更快,需要的訓練輪次大幅減少。

但問題隨之而來。這些輔助訓練需要額外的計算量,有時多出將近三成的計算開銷和接近兩成的顯存占用。隨著任務數量增加和數據規模擴大,這種額外負擔會越來越難以承受。於是,研究團隊提出了一個關鍵問題:有沒有辦法把輔助訓練帶來的好處"預先儲存"起來,讓模型在進行普通微調時天然就能享受到這些好處,而不必每次都付出額外代價?

---

二、從"數學減法"中提煉出能力的精華

研究團隊的核心洞察來自一個簡潔的數學直覺。

任何一個模型,都可以用一組數字來完整描述——這組數字稱為"參數",可以理解成模型的"神經網路權重",是它記憶知識和技能的載體。當模型從"原始狀態"經過訓練變成"訓練後狀態",參數會發生變化。這個變化量,就像是訓練過程在模型身上留下的"痕跡"。

研究團隊的關鍵假設是:當一個模型經過"帶輔助目標的微調"之後,它參數的變化可以被分成兩部分——一部分是專門用來學習當前具體任務的變化,另一部分是輔助目標帶來的通用能力提升。這兩部分可以被區分開來,彼此獨立。

驗證這個假設的方法出乎意料地簡單。對同樣一組訓練數據,用兩種方式分別訓練同一個預訓練模型:一種是普通微調,一種是帶輔助目標的微調。兩種方式訓練出來的模型,在學習具體任務動作方面的變化應該基本相同(因為任務數據一樣);而兩者參數之間的差異,就主要代表輔助目標帶來的那部分通用能力提升。

把這個差異單獨提取出來,就得到了"能力向量"(CapVector)。用數學語言來說,如果用字母θ_ft代表普通微調後的模型參數,θ_ao代表帶輔助目標微調後的模型參數,那麼能力向量γ_ao就等於θ_ao減去θ_ft。

提取出能力向量之後,把它加回到原始的預訓練模型參數上,就得到了一個"能力增強版的元模型"(meta model)。這個元模型既沒有經過任何具體任務的專門訓練,卻天然地攜帶了輔助訓練所賦予的通用能力。此後,用這個元模型作為起點,只需進行普通的標準微調,就能享受到原本需要輔助訓練才能得到的效果。

為了直觀理解,可以將其類比為基因工程:研究人員首先在一小批實驗個體身上實施了一套複雜的強化訓練,提取出這套訓練賦予個體的遺傳改善;然後把這份遺傳改善直接"寫入"所有後代的基因,讓後代們天生就具備這種優勢,無需重複經歷昂貴的強化訓練過程。

---

三、給元模型打上"防遺忘補丁"

僅僅把能力向量合併進預訓練模型還不夠。問題在於:當模型此後用普通微調學習新任務時,訓練過程會調整模型參數,而這種調整可能會把之前注入的通用能力給"覆蓋"掉,導致能力退化。

這就像是你花了大力氣學會了一項才藝,但隨後為了學習另一門完全不同的技能,舊的才藝慢慢生疏遺忘了。

為了防止這種遺忘,研究團隊引入了一個輕量級的"正交正則化損失"。聽起來很複雜,核心思想其實很樸素:在訓練新任務時,要求參數的更新方向儘量與已經注入的能力向量保持"垂直"——在數學上叫做正交。垂直意味著兩個方向相互獨立、互不干擾,就像東西方向的行走不會影響南北方向的進展。這樣,學習新任務的參數變化就不會沖刷掉能力向量所攜帶的通用能力。

最終的訓練損失由兩部分組成:一部分是完成具體任務動作所需的標準損失,另一部分就是這個新加入的正交損失,通過一個權重係數λ來調節兩者的比重。實驗表明,λ取1e-4(也就是萬分之一)時效果最佳。

在使用LoRA這類參數高效微調技術時(LoRA是一種只訓練少量參數的輕量化方法,適合顯存有限的場景),正交損失只需計算LoRA矩陣中的A矩陣,因為A矩陣代表參數更新的方向,B矩陣只是對方向的線性加權係數,不影響方向的獨立性。

這個正交損失引入的額外計算代價可以忽略不計:實測僅增加約0.3億次浮點運算(相比基礎訓練的17.9萬億次,增幅不足0.002%),顯存額外占用約0.5GB(相比基礎62.8GB,增幅不足0.8%)。相比之下,輔助訓練方法本身需要額外增加5萬億次浮點運算(增幅約28%)和10.9GB顯存(增幅約17%)。兩者的開銷差距相當懸殊。

---

四、在仿真實驗室里驗證:既快又好

研究團隊在兩個標準的機器人仿真測試平台上進行了大量實驗。

第一個平台是LIBERO,這是機器人學習領域廣泛使用的基準測試,包含四類任務套件:涉及空間位置關係的Spatial任務、涉及物體識別的Object任務、涉及目標導向的Goal任務,以及涉及長序列操作的Long任務,每類10個具體任務,共40個任務。第二個平台是RoboTwin 2.0,這是一個專注於雙臂協作操作的測試平台,包含各類精細操作任務,如翻轉開關、傳遞物品、擺放鞋子等。

實驗中選用了三種代表性的預訓練VLA模型作為基礎:OpenVLA-OFT(一種基於自回歸架構的模型)、StarVLA(一種採用流匹配架構的模型)和π0.5(另一種流匹配架構的先進模型)。輔助訓練方法則選用了兩種:Spatial Forcing(通過對齊視覺特徵與三維幾何表示來增強空間感知能力)和LaRA-VLA(通過隱式鏈式思維推理來增強長程規劃能力)。

在LIBERO平台上,以OpenVLA-OFT為基礎、Spatial Forcing為輔助訓練方法的實驗最為詳細。結果呈現出一幅清晰的圖景:在僅訓練5000步這種極少訓練量的情況下,普通微調的平均成功率為82.1%,而輔助訓練的Spatial Forcing達到87.5%,CapVector方法(使用元模型加正交損失的普通微調)則達到91.7%,明顯超越了兩者。訓練一個完整輪次(1 Epoch)後,差距繼續保持:普通微調90.9%,Spatial Forcing 95.2%,CapVector 96.5%。在訓練150000步(即充分訓練)的情況下,普通微調92.7%,Spatial Forcing 96.9%,CapVector 97.1%,仍然保持最優。

特別值得關注的是正交損失的作用。如果只使用元模型進行普通微調而不加正交損失,在訓練步驟少的時候(5k步、1 epoch、8 epochs)還能持續優於Spatial Forcing;但到了150k步這種充分訓練的階段,成績下滑到96.2%,低於Spatial Forcing的96.9%。這說明在長時間訓練的情況下,已注入的能力確實會被覆蓋磨損,而正交損失能有效阻止這種退化,使最終成績保持在最優水平。

在StarVLA模型上,將LaRA-VLA的輔助訓練能力向量注入後,CapVector在LIBERO四個任務套件上的平均成功率為97.1%,優於StarVLA基礎微調的94.5%,接近LaRA-VLA輔助訓練的97.9%。這說明CapVector不僅適用於空間感知類能力,對於多模態推理類能力同樣有效。對於π0.5這種雙組件架構的模型(包含視覺語言主幹和動作執行頭兩個部分),實驗還分別測試了只合併視覺語言主幹參數、以及同時合併視覺語言主幹和動作執行頭參數兩種方案,結果顯示兩者都優於基礎微調,而同時合併兩部分參數的效果略好。

---

五、跨越領域邊界:能力可以"空運"到陌生地方

一個自然而然的疑問是:能力向量是否具有普適性?它是不是只在提取它的那類任務上有效,換了一個完全不同的場景就失靈了?

研究團隊專門設計了跨領域遷移實驗。具體做法是:用LIBERO的數據提取能力向量(能力提取階段),然後把這個能力向量注入預訓練模型,再用完全不同的RoboTwin 2.0平台的數據進行微調(下游任務階段),兩個平台的視覺風格、物體類型、操作內容均有較大差異。

結果相當有說服力。以OpenVLA-OFT為基礎,在RoboTwin 2.0的10個任務上,普通微調的平均成功率僅有6.7%;Spatial Forcing輔助訓練(即原本需要昂貴計算代價的方案)達到33.1%;而使用從LIBERO-Spatial提取的能力向量構建元模型、再進行普通微調的CapVector,達到了31.8%,幾乎與Spatial Forcing持平,同時比普通微調高出接近五倍。

反方向的實驗同樣成立:用RoboTwin 2.0的任務數據提取能力向量,注入到模型後,在LIBERO-Long(長序列任務)上進行微調,成功率同樣有明顯提升。

這個結果從根本上回答了"能力向量是否任務無關"這個問題——答案是肯定的。能力向量所攜帶的是抽象層面的通用感知能力(比如對空間幾何關係的理解、對多模態資訊的整合推理),而不是針對特定任務場景的專用知識,因此它能跨越具體任務和數據分布的邊界,在陌生的新場景中依然發揮作用。

---

六、並非所有訓練數據都能提煉出好的能力向量

研究團隊沒有止步於驗證CapVector有效,還進一步探究了什麼樣的數據條件才能提煉出高質量的能力向量。這部分研究揭示了兩個值得深思的規律。

第一個規律:數據多樣性越高,提煉出的能力向量質量越高。研究團隊對比了RoboTwin 2.0平台中兩類不同背景配置的任務數據:一類是背景固定、場景單一的乾淨背景數據;另一類是背景隨機化、每個任務會隨機呈現多達一萬種不同視覺環境的隨機背景數據。在數據量和任務數量相同的前提下,使用隨機背景數據提煉出的能力向量,在跨領域遷移到LIBERO-Long後,成功率明顯高於乾淨背景數據提煉的版本。

這背後的原因在於:當模型在面對海量不同的視覺背景時,它被迫學會了更本質、更抽象的空間關係,而不是依賴特定的背景紋理或色彩。這種更深層的視覺理解隨後被凝結進能力向量,遷移到新環境時自然更有適應力。用烹飪來類比:用來自多個國家、多種烹飪風格提煉出的調味精華,比只從單一菜系中提煉的精華更能適應各種口味。

第二個規律:任務場景之間差異過大,反而會導致能力向量質量下滑。研究團隊在LIBERO平台上對比了三類訓練集:LIBERO-Spatial(10個任務,1種背景),LIBERO-Long(10個任務,3種背景),LIBERO-90(90個任務,3種背景)。儘管LIBERO-90包含了最多任務,直覺上應該提供最豐富的資訊,但實驗結果卻相反:從LIBERO-90提煉的能力向量遷移到RoboTwin 2.0後成功率最低,甚至接近沒有使用能力向量的基線水平。

研究團隊將這一現象歸因於"捷徑學習":當90個任務中的背景和物體高度多樣、差異顯著時,模型在輔助訓練過程中會被這些高方差的視覺特徵所主導,優先學習這些表面差異,而不是更深層的空間感知本質。打個比方:如果你給一個學生90道題,但每道題的場景和表述都大相徑庭,他可能花大量精力應對表面差異,而沒能建立起深層的解題方法論。換句話說,更多的任務數量如果帶來了更高的任務間異質性,反而可能干擾核心能力的提煉。因此,用於提取能力向量的任務數據應當具有豐富的內部多樣性(比如豐富的背景隨機化),而不應當由差異極大的不同任務硬拼在一起。

---

七、走出仿真室:在真實機器人上的實際驗證

仿真實驗再精彩,也只是數字遊戲,機器人研究最終必須回歸真實世界。研究團隊在工業場景中的真實機器人平台上進行了驗證,採用的是UR3工業機器人,設計了模擬工廠生產場景的一系列任務,包括將鋼質套管移到托盤、將金屬零件疊放到夾具台、從工具架拾取氣動夾爪等。每個任務收集100組演示數據,模型在全部任務上聯合訓練,評估時每個任務運行100次來統計成功率。

能力向量完全來自仿真環境(LIBERO-Spatial的數據),但被直接應用於真實機器人訓練——這是典型的"仿真到現實"遷移場景,也是機器人領域最難跨越的鴻溝之一。

結果令人鼓舞。在所有任務上,使用CapVector方法的成功率都優於對應的基礎模型,部分任務上甚至超過了Spatial Forcing輔助訓練的成績。以π0.5為基礎的實驗中,"拾取夾爪"任務的成功率從0.10(10%)提升到了0.32(32%);以OpenVLA-OFT為基礎的實驗中,"將鋼質套管移到托盤"任務從0.24(24%)提升到了0.38(38%)。這說明從仿真數據中提煉的空間感知能力向量所捕獲的是基本的幾何規律,而不是仿真場景特有的視覺細節,因此能夠跨越仿真與現實的鴻溝,在真實物理世界中繼續發揮作用。

更進一步,研究團隊將相同的能力向量權重分享給兩組外部合作團隊,讓他們在各自實驗室中用兩種完全不同的機器人硬體平台上進行測試:ARX Lift 2是一種六自由度雙臂機器人,AgileX Cobot是另一種六自由度雙臂遙作業系統,兩者的機械結構、傳感器配置和運動特性均不相同。外部團隊分別在這兩種平台上用能力向量增強的元模型進行自己的微調和評估。

設計的四類任務涵蓋了複雜的長序列操作:將右側試管架上的試管依次轉移到左側試管架(需要連續精確操作4根試管)、打開工具箱找到扳手、移動電源排插並按下其按鈕、擦拭盤子後將其擺放到指定位置。

在四項任務上,CapVector方法均優於對應的基礎π0.5模型。特別是試管轉移任務——這是四項中最考驗長序列精確操作能力的任務,失敗一步則全盤失敗——基礎模型成功率為36%,CapVector提升到53%,提升幅度接近一半。這表明能力向量的有效性不依賴於特定的機器人硬體,具備真實的跨機型遷移能力。

---

歸根結底,這項研究的意義在於,它提供了一種看待機器人訓練的新角度:預訓練模型不應該是一個白板,而應該是一個被精心優化過"基礎體質"的出發點。通過一次性地在小規模數據上提取能力向量、合併到預訓練參數中,就能讓後續所有的標準微調過程都站在更高的起點上——不需要每次都付出昂貴的輔助訓練代價,也不需要修改任何訓練流程,只需提供一個更好的初始化起點。

這種思路對機器人技術的普及有著具體的現實意義。目前,部署和微調先進機器人模型需要大量的計算資源,這是許多中小型工廠、醫院、科研機構難以承擔的門檻。如果能夠降低微調所需的計算代價,同時保證甚至提升微調效果,這些場景就能以更低的成本享受到先進機器人技術帶來的便利。此外,能力向量可以像軟體包一樣分享——研究團隊已經把訓練好的能力向量公開發布,任何使用相同基礎模型的用戶都可以直接下載使用,無需自己進行昂貴的輔助訓練,直接獲得提升。

當然,這項研究也坦承了一個明顯的邊界:目前的工作僅覆蓋了監督微調這一訓練範式,如何在強化學習訓練過程中提取和遷移能力向量,還有待未來研究探索。這是一片尚未開墾的領地,也是這條研究路線最值得期待的延伸方向。有興趣深入研究的讀者可以通過arXiv:2605.10903檢索完整論文,以及通過論文中公布的GitHub倉庫獲取代碼和模型權重。

---

Q&A

Q1:CapVector方法需要重新訓練預訓練模型本身嗎?

A:不需要重新訓練預訓練模型。CapVector的做法是:先用少量任務數據分別進行普通微調和輔助目標微調,提取兩者參數之差作為能力向量,再通過簡單的加法將能力向量合併進預訓練模型,得到一個增強版的元模型。整個過程不改動原始預訓練模型,計算代價遠小於輔助訓練方法本身。

Q2:能力向量是否只對特定型號的機器人有效?

A:實驗結果表明,能力向量具有跨機型遷移能力。研究團隊將相同的能力向量分享給外部合作團隊,在ARX Lift 2和AgileX Cobot兩種結構和傳感器配置完全不同的雙臂機器人上均取得了優於基礎模型的成績,部分任務成功率提升幅度接近50%,說明能力向量捕獲的是機型無關的通用感知能力。

Q3:提取能力向量時,使用什麼樣的數據效果最好?

A:實驗發現,數據內部多樣性高的場景(比如背景隨機化豐富)有助於提煉出高質量的能力向量;而由差異極大的不同任務硬拼在一起的數據集,反而會導致模型在訓練中偷學表面特徵、產生捷徑學習,使能力向量質量下降。因此,提取能力向量應優先選用任務相對聚焦、但場景多樣性豐富(如背景、物體隨機化程度高)的數據集。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新