這項由字節跳動旗下ByteDance Seed、新加坡國立大學(NUS)、馬里蘭大學(UMD)和香港科技大學(HKUST)共同完成的研究,以預印本形式於2026年6月25日發布在arXiv平台,論文編號為arXiv:2606.27377。感興趣的讀者可以通過這個編號在arXiv上找到完整論文。
當你打開一款AI畫圖軟體,你希望它既能根據你的文字描述憑空生成一張漂亮的圖,又能把你手裡一張普通的咖啡館照片改成油畫風格,還能只把照片裡的咖啡杯換掉而保留其他一切。這三件事聽起來都不難,但要讓同一個AI模型同時做好這三件事,卻是一件極其頭疼的事情。
這就像要求同一個廚師既要做出米其林級別的原創料理,又要按照顧客的菜單精準復刻一道老菜,還要在不改變整桌菜餚風味的前提下悄悄換掉其中一道菜的食材。這三件事對廚師的要求完全不同,甚至有時候相互衝突——追求極致創意的廚師往往很難忍受"照單復刻",而專門改菜的廚師又會不斷受到"別動其他菜"的束縛。
研究團隊把這個困境提煉成一個核心問題:怎樣讓一個AI模型同時掌握多種能力,並且這些能力之間不會互相拖後腿?他們的答案就是這篇論文所介紹的方法——DanceOPD,一個"現場取經"式的生成能力蒸餾框架。
一、為什麼AI同時學多種技能這麼難
要理解這個問題,先得知道現代AI圖像生成模型是怎麼工作的。這類模型的本質,是在一張滿是噪點的"雪花屏"上,一步一步地"擦去"噪點,最終還原出一張清晰的圖像。每一步擦除的方向和力度,就是所謂的"速度場"——模型在每個時刻、每個位置,都需要判斷"應該往哪個方向擦"。
當模型只需要做一件事,比如純粹的文字生圖,它只需要學會一種擦除方式。但當你要求它同時掌握"自由創作"、"局部精確修改"和"整體風格改變"三種截然不同的能力時,麻煩就來了。
文字生圖需要模型放開手腳,天馬行空地創作,追求整體的視覺衝擊力和對文字描述的忠實還原。局部編輯卻要求模型小心翼翼,改變指定區域的同時,必須像外科手術一樣保證周圍區域紋絲不動。全局編輯則介於兩者之間——要大幅度改變整體氛圍,比如把照片改成梵谷風格,但又不能讓照片裡的人變成另一個人。
這三種能力的"擰勁"極為明顯。一旦你把它們混在一起訓練,模型就會變得不上不下:文字生圖的能力被編輯任務拉偏,編輯任務又被全局風格改變的思路帶跑,最終三種能力都只剩下平庸的"平均水平"。就像要求一個人同時學鋼琴、游泳和舉重,不僅進步緩慢,還可能因為肌肉記憶相互干擾而三項都學得一塌糊塗。
現有的解決方案都有各自的局限。把不同類型的數據混在一起訓練,會導致每種能力的專項監督信號被稀釋,就像把三種顏料混在一起,最後只會得到一鍋渾濁的泥色。把不同模型的參數直接合併,則像把三個廚師的菜譜強行疊加,往往只會得到一個不倫不類的折中產物。而另一種思路——在推理的時候才把不同模型的信號合併,相當於把問題踢給了用戶,模型本身根本沒有真正學會如何協調這些能力。
二、把每種能力看作一種"速度場":換個角度,豁然開朗
DanceOPD的出發點是一個非常優雅的重新定義。研究團隊不再把"文字生圖能力"、"局部編輯能力"、"全局編輯能力"當作三種完全不同的東西,而是把它們統一看作同一片"地圖"上的三種不同"導航方式"。
這片地圖就是模型在去噪過程中經過的"狀態空間"——也就是從滿是噪點的雪花屏到清晰圖像之間的所有中間狀態。無論是文字生圖、局部編輯還是全局編輯,模型都在同一片地圖上行走,只是走的路線不同。每種能力,本質上就是在每個位置、每個時刻告訴模型"該往哪走"——這就是"速度場"的含義。
有了這個統一視角,多能力的組合問題就變成了一個"如何在地圖上同時服從多個嚮導"的問題。研究團隊把每個已經訓練好的專項模型(文字生圖專家、編輯專家、風格轉換專家)都當作一個"凍結的嚮導",它們已經知道在每個位置該往哪走,而要訓練的"學生模型"需要學會在合適的時候聽從合適的嚮導。
這種框架帶來了一個意想不到的好處:連"分類器自由引導"(CFG,一種讓AI生成更符合文字描述的技術手段,通俗來說就是讓AI更"聽話"的程度調節器)也可以被看作一種速度場,被直接學進模型里,省去了推理時反覆計算的麻煩。
三、三個關鍵問題:向哪個嚮導取經、在哪裡取經、取幾次
一旦把多能力組合轉化為"向多個嚮導取經"的問題,緊接著就有三個具體的設計選擇必須做出,而這三個選擇直接決定了最終效果的好壞。
第一個問題是:同一張訓練圖,應該同時向所有嚮導取經,還是每次只向一個嚮導取經?
乍看起來,同時聽所有嚮導的建議似乎更高效——匯總所有資訊,不是更全面嗎?但問題在於,不同嚮導給出的建議方向可能截然相反。文字生圖嚮導說"往左走",局部編輯嚮導說"往右走",把兩個指令平均一下,結果就是"哪兒也不去"。這就好像你同時接到兩個朋友的電話,一個讓你去北京,一個讓你去上海,折中一下你就在兩個城市之間的某個小城待著了,哪邊的會議都趕不上。
DanceOPD的解決方案是"硬路由":每張訓練圖只聽一個嚮導。文字生圖的樣本就向文字生圖專家取經,編輯樣本就向編輯專家取經,風格樣本就向風格專家取經,絕不混搭。長期下來,學生模型通過大量的分門別類的訓練,自然而然地學會了每種情境下該走哪條路。各個能力的學習互不干擾,每次更新都有清晰的語義指向。
第二個問題是:應該在"嚮導熟悉的路"上取經,還是在"學生自己走過的路"上取經?
一個嚮導在自己熟悉的路上走得遊刃有餘,但學生走的路可能和嚮導習慣的路有所不同。如果學生在一條嚮導從未走過的路上,卻按照嚮導在另一條路上給出的建議行動,結果往往是南轅北轍。
這就是所謂的"分布偏移"問題。打個比方:你在一座陌生的城市迷路了,打電話給在北京生活的朋友問路,他按照北京的路況給你指路,結果對你毫無用處,因為你們根本不在同一個城市。
DanceOPD的做法是,每次取經都發生在學生自己"走路"過程中經過的真實狀態上。具體來說,訓練時先讓學生模型完整地走一遍去噪的路,記錄下自己實際經過的中間狀態,然後再在這些狀態上向對應的嚮導取經,用嚮導在這個狀態下的建議來糾正學生。這樣,取經的地點就始終和學生真實的生成路徑保持一致,從根本上消除了"路況不符"的問題。
第三個問題是:在學生走的這條路上,應該在很多地方取經,還是只在一個地方取經?
直覺上,取經的次數越多、覆蓋的位置越全,學習的信號越豐富,效果應該越好。但研究團隊發現,事情沒這麼簡單。
學生在一次完整的去噪過程中,所經過的所有中間狀態都有一個共同點:它們來自同一個初始噪點、同一段文字描述、同一次生成過程。這就像一個人在一段旅途中拍的所有照片,背景都是同一片風景,構圖都帶著同一種風格——這些照片攜帶的資訊高度重疊,你多拍一千張,也不會比拍一張多告訴你太多新東西。
用專業一點的說法,同一次生成過程中的多個狀態之間存在高度相關性,用它們反覆調整模型,相當於反覆用同一個方向的力推同一個方向,結果可能適得其反——不僅浪費計算資源,還可能讓某些能力的訓練信號被過度強調,打破了不同能力之間原本的平衡。
DanceOPD的選擇是:每次只取一個經,而且專門選在去噪路徑接近終點的地方取經。為什麼是接近終點?因為越靠近最終的清晰圖像,狀態中包含的資訊越具體——風格細節、顏色傾向、局部屬性都集中在這個區域,恰恰是編輯和風格相關能力最需要學習的信號最密集的地方。高噪點區域的狀態主要攜帶的是粗糙的結構資訊,和具體能力關聯不大。
四、一步訓練的完整流程:把三個設計打包在一起
把上面三個設計組合在一起,DanceOPD的每一步訓練就變成了一個簡潔的流程。
首先,隨機抽一個能力方向(比如今天這個樣本屬於"局部編輯"),從對應的訓練數據里取一張圖。接著,讓學生模型對這張圖從頭到尾走一遍去噪的路,記錄下整個路徑,但這次走路的過程不用來計算梯度,只是用來看"學生走到哪了"。然後,在靠近終點的地方選一個具體位置,問"局部編輯嚮導":在這裡,你會怎麼走?把嚮導的建議和學生自己的判斷做對比,計算差距,用這個差距來更新學生模型的參數。
整個過程用的損失函數是最簡單的"速度均方誤差"——也就是嚮導建議的方向和學生實際走的方向之間的距離平方。研究團隊在理論上證明了,這種最簡單的均方誤差,在一定的數學假設下,等價於更複雜的KL散度(一種衡量兩個概率分布差異的指標),所以用它作為訓練目標在理論上是有充分依據的。
五、實驗結果:四種場景,全面驗證
研究團隊在四種不同的場景下對DanceOPD進行了測試,涵蓋能力組合和能力吸收兩大類任務,使用的主要底座模型是字節跳動自研的Z-Image,另外還用了SD3.5-M做真實感增強測試。
第一個場景是文字生圖加圖像編輯的組合。這裡的挑戰是:在讓模型學會各種編輯操作(換背景、換風格、換顏色、刪除對象、替換對象等)的同時,保住它原本強大的文字生圖能力。用來衡量編輯能力的指標叫GEditBench,衡量文字生圖能力的指標叫GenEval。
DanceOPD在GEditBench的平均分上比最強的其他在線蒸餾方法高出8.1%,比單獨的編輯專家模型還高出8.5%。同時,GenEval總分比文字生圖專家模型還略高2%,比所有對比方法都強。特別值得一提的是,在需要大幅度視覺改變的類別上(比如背景更換、風格轉換),DanceOPD的優勢尤為明顯——背景更換比DiffusionOPD高了21.9%,風格轉換高了21.3%。
第二個場景是局部編輯和全局編輯的組合。這個場景更為棘手,因為局部編輯強調"保住大局,只動局部",而全局編輯要求"大刀闊斧,整體變換",兩種哲學幾乎正面衝突。DanceOPD在GEditBench平均分上比最強競爭方法高16.1%,比局部編輯專家模型還高7.9%,GenEval總分也高於所有對比方法2.5%。具體來看,背景更換比最強對比方法高33.5%,風格轉換高12.9%,顏色調整高11.6%。
第三個場景是真實感增強能力的吸收。這裡的任務是讓一個基礎文字生圖模型,通過向一個專門訓練過的"高真實感嚮導"學習,讓生成的圖像更接近真實照片的質感,同時不損失原來的文字理解能力。DanceOPD的真實感評分比離線蒸餾方法高9.9%,成功彌合了學生模型和真實感嚮導之間85.3%的差距,而文字生圖能力的得分不僅沒有下降,反而比未蒸餾的學生模型提高了7.6%。
第四個場景是分類器自由引導(CFG)的吸收。這個場景測試的是能否把通常在推理時才用到的"聽話程度調節"直接烤進模型里,減少推理時的計算量。實驗發現,在訓練時用α作為引導強度、在推理時再用β做額外引導的話,兩者的效果會疊加,大約相當於α×β的綜合強度。最佳組合配置下,GEditBench平均分比僅在訓練時做吸收的方案高7.6%,比僅在推理時使用引導的方案高1.4%。但如果訓練和推理都用了很大的引導強度,兩者疊加會導致"過度引導",效果反而大幅下降31.2%。
六、拆解實驗:每個設計選擇到底貢獻了多少
為了驗證每個設計選擇的必要性,研究團隊還做了一系列仔細的消融實驗,一個一個地改變設計,看效果如何變化。
關於"硬路由vs軟混合"的對比,數據非常清晰。用均方誤差損失時,硬路由比軟混合(把所有嚮導的建議平均在一起)高出15.2%,在背景更換和刪除對象這兩個類別上,優勢分別達到20.8%和26.8%。換用另一種加權損失函數,硬路由依然高出10.6%。這說明,核心問題不在於用什麼損失函數,而在於每次取經時目標是否清晰。
關於"同步積累vs輪流更新"的對比,實驗設置了每次更新同時考慮三種能力的情況(同步積累),結果平均分比單次更新下降了4.6%,而且不同能力之間的平衡被打亂——某些能力的分數上升了,但另一些能力(特別是刪除對象和添加對象)分別下降了13.5%和17.5%。當同步積累還疊加了多狀態密集取經時,情況更糟,平均分下降22.8%,添加對象下降28.9%,刪除對象更是暴跌46%。
關於密集取經時的相關性問題,研究團隊用了一個有趣的驗證方式:把原本確定性的去噪路徑(ODE)換成加了隨機噪聲的路徑(SDE),看能不能減少不同取經點之間的相關性,從而緩解密集取經的問題。結果發現,加噪聲確實把密集取經的差結果改善了18.4%,這是對"相關性是問題根源"的間接證明。但即便如此,改善後的結果依然比單次語義側取經低8.6%,而且加噪聲本身也影響了另外一些情況下的表現。所以最安全的選擇,依然是從一開始就用單次語義側取經。
關於取經位置的選擇,實驗對比了在靠近終點(低噪聲)、中間位置(中噪聲)和遠離終點(高噪聲)三種區域取經的效果。在2000步訓練時,低噪聲取經比中噪聲高出23.7%,比高噪聲高出19.5%。其中,添加對象類別上,低噪聲分別比中、高噪聲高出35.9%和46.1%;背景更換比中噪聲高36.1%;刪除對象比中噪聲高42.3%。這強有力地支持了"能力相關資訊在低噪聲區域更密集"的判斷。
關於損失函數的選擇,純粹的速度均方誤差在所有測試的變體中表現最好,比加權均方誤差和DMD-EMA混合方案高2.8%,比一致性正則化方案高4.1%,比KL加權方案高4.5%。更複雜的DMD2系列變體和輔助特徵蒸餾方案,平均分比最簡單的均方誤差低15.6%到21.1%。這說明,當目標是一個確定性的速度場時,直接做速度回歸是最穩定、最有效的選擇。
關於學生模型的初始化,實驗比較了從局部編輯專家、全局編輯專家、文字生圖專家和合併初始化四種起點出發的效果。從局部編輯專家出發,2000步訓練後比合併初始化高37.2%,比全局編輯初始化高112.8%,比文字生圖初始化高204.4%。這說明,一個更好的初始學生,意味著它從一開始走的路就更接近正確的區域,嚮導在這些狀態上給出的建議也更有價值、更可用。
關於訓練時用多少步數的去噪路徑來生成取經位置,實驗發現16步是一個不錯的默認選擇——比8步、20步和28步在GEditBench平均分上分別高出0.2%、3%和0.9%,GenEval總分也更均衡。特別值得注意的是,28步的路徑在某些編輯子類上表現不錯,但刪除對象能力比16步低了33.7%,文字生圖保留能力也更差。這說明更長的路徑並不等於更好的取經信號,因為隨著路徑變長,靠近終點的那個取經點對應的概率質量被分散到了更多的候選位置,取經的確定性反而降低了。
七、理論支撐:為什麼這些設計選擇是對的
研究團隊不僅做了實驗驗證,還提供了相應的理論分析,解釋了為什麼每個設計選擇在數學上是合理的。
關於均方誤差等價於KL散度的問題,推導的核心思路是:如果把學生模型和嚮導在每一小步去噪中產生的狀態轉移,都近似看作一個高斯分布(也就是一個以預測方向為中心、散布開來的概率雲),那麼兩個具有相同協方差矩陣的高斯分布之間的KL散度,其計算結果恰好是兩個均值之間距離的平方,再乘以一個與時間步相關的係數。這就是為什麼速度均方誤差在這個框架下是KL散度的自然近似。
關於為什麼要在學生自己走的路上取經,研究給出了一個簡單的誤差界:如果嚮導的速度場滿足Lipschitz條件(大意是速度場不會在空間上劇烈震盪),那麼在一個狀態上取經和在另一個狀態上取經,誤差最多是兩個狀態距離乘以一個常數。當學生走的路和取經的離線狀態離得越遠,誤差就越大。在線取經直接把這個距離壓縮到零。
關於軟混合導致目標偏差的問題,數學表達非常直接:如果把多個嚮導的速度場加權平均,得到的混合目標和當前樣本的正確嚮導之間,差距是"所有非當前嚮導的速度場與當前嚮導的加權差之和"。當不同嚮導對應不同任務、攜帶不同能力方向時,這個差距的方向往往是無意義的混合,會把學生的更新引向錯誤的方向。
關於密集取經導致梯度相關的問題,理論分析引入了一個標準的相關性分解公式:如果你從同一條路徑上取K個點,每個點給出一個梯度估計,這K個梯度的平均值的方差,並不是單個梯度方差除以K,而是單個梯度方差除以K、再乘以一個(1+(K-1)×相關係數)的因子。當相關係數接近1時,不管K多大,平均梯度的方差幾乎等於單個梯度的方差,多取幾次經完全沒有降噪效果。
說到底,DanceOPD做的事情,是把一個看起來複雜的多能力組合問題,通過換個角度來看(統一速度場視角),拆解為三個具體的設計問題,再用三個有理論依據的設計選擇(硬路由、在線取經、單次語義側查詢)分別解決,最後用最簡單的損失函數串聯起來,得到一個穩定、高效、效果出色的框架。整個思路的精華在於,它沒有試圖發明什麼複雜的融合機制,而是搞清楚了"為什麼不能混"和"在哪裡聽嚮導最有用"這兩個根本性的問題。
當然,這套方法也有其邊界。它要求所有"嚮導"和"學生"都工作在同一個狀態空間裡,用同一種速度場的語言說話,這在現有的同系列模型里很容易滿足,但對於架構差異巨大的模型就不適用了。此外,目前的路由是預先定好的——每種樣本對應哪個嚮導,在訓練開始前就確定了,這對於邊界清晰的任務(文字生圖、編輯)很合適,但對於"這張圖既要局部改又要整體換風格"這樣的混合需求,還需要進一步探索,比如引入一個判斷模型來動態分配路由。
Q&A
Q1:DanceOPD解決的是什麼問題?
A:DanceOPD解決的是讓一個AI圖像生成模型同時掌握文字生圖、局部編輯、全局風格轉換等多種能力,並且這些能力之間不會互相干擾的問題。傳統方法把多種能力混在一起訓練,往往導致每種能力都變得平庸,而DanceOPD通過"每次只向一個嚮導取經、在學生自己走過的路上取經、每次只取一次經"這三個設計,讓各種能力的學習互不干擾,同時還能相互加強。
Q2:DanceOPD為什麼只在去噪路徑接近終點的地方取一次經,而不是多取幾次?
A:因為同一次去噪過程中的多個狀態都來自同一個初始噪點和同一段提示詞,攜帶的資訊高度重疊,多取幾次經本質上是在用同一個方向的力反覆推,效果和取一次差不多,但還可能打亂不同能力之間的平衡。接近終點的低噪聲區域集中了風格、顏色、局部屬性等能力相關信號,取經效率最高。實驗證明,單次低噪聲取經比多次取經的效果平均高出7.9%到16.6%。
Q3:DanceOPD與直接把多個模型參數合併有什麼本質區別?
A:直接合併參數相當於把幾個廚師的菜譜強行混在一起,假設不同能力在參數空間裡可以線性疊加,而實際上往往做不到,結果是三種能力都變弱。DanceOPD讓一個學生模型通過動態地、分門別類地向各個專家模型的"速度場"學習,學生學的是在每種情況下該怎麼走,而不是直接把專家的記憶複製過來。實驗中,直接參數合併的編輯平均分只有0.344,而DanceOPD達到了5.347,差距極為懸殊。






