這項由上海交通大學EPIC實驗室領導,聯合阿里巴巴集團釘釘團隊、威斯康星大學麥迪遜分校、伊利諾伊大學厄巴納-香檳分校和Mila-魁北克人工智慧研究所共同完成的研究,於2026年發表在預印本平台上。有興趣深入了解的讀者可以通過論文編號arXiv:2602.05400v2查詢完整論文。
想像一下教小孩學說話的過程:你不會把所有的書籍都堆在孩子面前讓他隨便看,而是會精心挑選那些適合他當前水平、最有幫助的讀物。這正是現在AI大語言模型訓練面臨的核心挑戰——如何在海量的文本數據中選出最有價值的"食材"來餵養AI。
當前的AI訓練就像是開設一家高級餐廳,但食材選擇出現了問題。傳統的做法要麼是廚師提前把所有食材分好類(靜態選擇),要麼是在烹飪過程中憑感覺隨意抓取(動態選擇)。然而,這兩種方法都忽略了一個關鍵問題:不同的烹飪方法需要不同的食材處理方式,而現有的食材選擇完全沒有考慮到具體的烹飪工具和技巧。
研究團隊發現,目前主流的AI訓練優化器(相當於不同的烹飪方法)會對原始數據進行複雜的加工處理,就像用不同的刀法、火候來處理同樣的食材。但現有的數據選擇方法都假設所有食材都用同樣的處理方式,這就像用適合煎蛋的標準去選擇做紅燒肉的食材一樣荒謬。
為了解決這個問題,研究團隊開發了一套名為OPUS的全新數據選擇框架。這個名字代表"優化器誘導的投影實用性選擇",聽起來很複雜,但本質就是讓數據選擇過程充分考慮具體優化器的特性,就像為不同的烹飪方法量身定製食材選擇標準。
一、傳統方法的局限:為什麼現有的數據選擇像盲人摸象
在深入了解OPUS之前,我們先來看看現有方法的問題。目前AI訓練中的數據選擇主要有兩大類:靜態選擇和動態選擇。
靜態選擇就像在超市購物時,提前根據食材的外觀、產地、價格等固定標準選好所有食材,然後回家無論做什麼菜都用這些食材。比如FineWeb-Edu分類器會根據文本的"教育價值"給每個文檔打分,分數高的就選中。這種方法的問題在於,它假設一個文檔的價值是恆定不變的,完全不考慮AI模型在訓練過程中的學習狀態變化。
動態選擇則更像是一邊做菜一邊挑選食材,會根據當前的烹飪狀態來調整食材選擇。比如GREATS方法會實時計算每個數據樣本的"梯度"(可以理解為學習信號的強度),然後選擇那些能產生最強學習信號的數據。
但這兩種方法都有一個致命缺陷:它們都沒有考慮到具體的"烹飪工具"特性。在AI訓練中,優化器就相當於烹飪工具,不同的優化器會以完全不同的方式處理數據。就像同樣的牛肉,用平底鍋煎和用高壓鍋燉需要完全不同的切法和調料搭配。
現代AI訓練主要使用兩種先進的優化器:AdamW和Muon。AdamW就像一個智能的多功能廚師機,會根據每種食材的特性自動調整處理方式;Muon則更像一個專業的日式料理師傅,特別擅長精細的刀工處理。但現有的數據選擇方法都假設使用的是最簡單的菜刀(SGD優化器),這就導致了嚴重的不匹配。
研究團隊通過大量實驗發現,這種不匹配會導致訓練效率大幅下降。就像用適合簡單炒菜的食材搭配去做複雜的法式料理,結果自然不會理想。更糟糕的是,隨著AI模型規模越來越大,訓練成本越來越高,這種效率損失變得越來越難以承受。
二、OPUS的核心創新:讓數據選擇與優化器完美配合
OPUS的核心理念可以用一個簡單的比喻來理解:它就像一個既懂食材又精通各種烹飪技法的頂級大廚,能夠根據具體的烹飪方法來精確選擇和處理食材。
傳統方法在選擇數據時,只看數據本身的"營養價值"(梯度大小),卻忽略了不同優化器會如何"消化"這些數據。OPUS則不同,它會模擬每個優化器的具體工作方式,預測每個數據樣本經過特定優化器處理後的實際效果,然後據此來選擇數據。
具體來說,OPUS的工作流程就像一個精密的餐廳運營系統。首先,它會分析當前使用的"烹飪設備"(優化器)的特性,了解這種設備是如何處理原材料的。比如,AdamW優化器會對每個參數進行個性化的自適應調整,就像智能烤箱會根據不同食材的特性自動調節溫度和時間。
然後,OPUS會構建一個"品質檢驗標準"(代理方向),這個標準來源於高質量的基準數據集。這就像米其林餐廳會有一套嚴格的出品標準,每道菜都要符合這個標準才能上桌。OPUS通過一種叫做"基準代理"(BENCH-PROXY)的技術,從訓練數據中找出那些與高質量基準最相似的樣本作為參考標準。
接下來是OPUS最精妙的部分:對每個候選數據樣本,它會預測這個樣本經過特定優化器處理後,能在多大程度上幫助模型朝著"品質標準"的方向改進。這個預測過程考慮了優化器的所有特性,包括它如何調整學習率、如何處理歷史資訊、如何應對不同類型的參數等等。
為了提高計算效率,OPUS還採用了兩項關鍵技術。第一項叫做"幽靈技術"(Ghost Technique),它能夠在不完全計算每個樣本梯度的情況下獲得足夠的資訊進行選擇,就像經驗豐富的廚師能夠通過觀察食材的外觀、聞味道就知道它的品質,而不需要真正烹飪一遍。
第二項技術叫做CountSketch投影,它將高維的梯度資訊壓縮到低維空間進行處理,大大降低了計算成本。這就像用快速檢測儀器替代複雜的化學分析,既保證了準確性又提高了效率。
三、讓選擇更加多樣化:波爾茲曼採樣的智慧
在數據選擇中,還有一個容易被忽視但十分重要的問題:如何在選擇高質量數據的同時保持多樣性。這就像辦一場成功的宴會,不能只準備一種再好吃的菜,而是要有合理的搭配。
傳統的貪婪選擇方法總是挑選當前看起來最好的數據,這就像只挑選最新鮮的魚來做菜,卻忽略了整桌菜的平衡。這種做法的問題在於,它可能會過度集中在某些類型的數據上,導致模型的學習出現偏向。
OPUS採用了一種更智慧的選擇策略:波爾茲曼採樣。這種方法的靈感來自物理學中的熱力學原理,它不是簡單地選擇分數最高的數據,而是根據數據的質量分數給每個樣本分配一個被選中的概率。
這種方法的巧妙之處在於,質量高的數據仍然有更大的被選中概率,但質量稍低但可能帶來不同視角的數據也有機會被選中。這就像一個經驗豐富的廚師,在選擇主菜食材時會偏向最優質的,但同時也會選擇一些能夠提供不同口味層次的輔助食材。
為了進一步避免選擇的同質化,OPUS還設計了一個"冗餘懲罰"機制。當系統發現某個數據樣本與已經選擇的數據過於相似時,會降低其被選中的概率。這確保了選擇出的數據集既有高質量,又有足夠的多樣性。
四、實驗驗證:在多個場景下的出色表現
研究團隊在多個不同的場景下測試了OPUS的性能,結果令人印象深刻。這些測試就像在不同類型的餐廳中驗證一套新的食材選擇標準是否真的有效。
在從頭開始訓練GPT-2模型的實驗中,OPUS展現出了顯著的優勢。研究團隊使用了FineWeb和FineWeb-Edu兩個大規模數據集,這相當於在兩種不同質量的食材市場中測試採購策略。結果顯示,OPUS在30B個訓練token的預算下,平均比隨機選擇提高了2.2%的準確率,同時實現了8倍的計算效率提升。
更令人驚訝的是,OPUS訓練的模型甚至能夠超越使用全部200B token訓練的傳統方法。這就像用精心挑選的食材做出的菜餚,品質超過了使用大量普通食材製作的料理。
在一個特別嚴苛的測試中,研究團隊讓OPUS從相對低質量的數據池中選擇樣本,而讓其他基線方法使用高質量數據。即使在這種不公平的對比中,OPUS仍然取得了最佳的性能。這證明了好的選擇策略確實能夠化腐朽為神奇,讓普通食材發揮出超常的價值。
除了從頭訓練,研究團隊還在繼續預訓練場景中測試了OPUS。他們使用Qwen3-8B-Base模型在SciencePedia科學數據上進行專業化訓練。結果顯示,OPUS僅使用0.5B個token就達到了傳統方法使用3B token的效果,數據效率提升了6倍。
這個結果特別重要,因為它表明OPUS不僅在通用訓練中有效,在專業領域的知識注入中也同樣出色。這就像一套好的食材選擇標準,不僅適用於家常菜,在製作專業料理時也能發揮重要作用。
五、技術細節:如何讓複雜的算法變得可行
OPUS的成功不僅在於理念的創新,更在於技術實現上的巧思。研究團隊面臨的最大挑戰是如何在保證選擇質量的同時控制計算成本。
傳統的影響函數方法雖然理論上很完美,但計算成本高得離譜,就像要為每道菜都配備專門的營養師進行詳細分析。OPUS通過幾項關鍵的技術創新解決了這個問題。
首先是對不同優化器的數學建模。研究團隊深入分析了AdamW和Muon兩種主流優化器的數學原理,推導出了它們的線性化近似公式。這就像研究不同烹飪方法的科學原理,理解它們是如何改變食材的分子結構的。
對於AdamW優化器,研究團隊發現它本質上對每個參數應用了不同的縮放因子,這些因子基於參數的歷史梯度統計資訊。對於Muon優化器,情況更加複雜,它使用了矩陣正交化技術,相當於對參數進行了更精細的幾何變換。
為了高效地處理這些複雜的變換,OPUS採用了幾項巧妙的近似方法。比如在處理驗證梯度時,它使用了一階泰勒展開來避免昂貴的二階計算。在處理Hessian矩陣時,它使用了等向性近似來大幅簡化計算。
CountSketch投影技術是另一個關鍵創新。這種技術能夠將高維向量壓縮到低維空間,同時保持內積運算的無偏估計。研究團隊將sketch維度設置為8192,對於參數量達到千萬級的模型來說,這相當於實現了1000多倍的壓縮比。
六、效率分析:少量開銷換來巨大提升
任何新技術的實用價值最終都要看它的成本效益比。OPUS在這方面表現得相當出色,它僅僅增加了4.7%的計算開銷,卻帶來了顯著的訓練效果提升。
這個開銷主要來自三個方面:代理方向的計算、候選樣本的特徵提取,以及CountSketch投影。研究團隊通過精心的工程優化,將這些操作的成本控制在了最低水平。
相比之下,如果使用傳統的動態選擇方法進行同樣精度的數據選擇,計算開銷可能會達到350%以上。這就像用手工方式做精細食材處理和使用專業設備的區別,效率相差懸殊。
更重要的是,OPUS帶來的訓練效果提升遠遠超過了這點額外開銷。在某些實驗中,OPUS訓練的模型達到相同性能水平所需的數據量只有傳統方法的1/8。考慮到大規模AI訓練的數據處理成本,這種效率提升的經濟價值是巨大的。
七、未來展望:數據選擇的新時代
OPUS的成功標誌著AI訓練數據選擇進入了一個新的階段:從經驗驅動轉向科學驅動,從靜態標準轉向動態適應,從單一指標轉向綜合優化。
這項研究的意義不僅在於提出了一個新的數據選擇方法,更重要的是它建立了一個新的研究範式。它表明,要真正優化AI訓練過程,我們不能孤立地看待數據、算法和優化器,而是要將它們作為一個整體系統來考慮。
研究團隊在論文中也指出了一些未來的研究方向。比如,如何將OPUS擴展到多模態數據(圖像、音頻等)的選擇中,如何在更複雜的混合數據集上應用這種方法,以及如何進一步降低計算成本等。
隨著AI模型規模的不斷增長和訓練成本的急劇上升,高效的數據選擇技術將變得越來越重要。OPUS為這個領域提供了一個強有力的工具和一個新的思路。它不僅能夠幫助現有的AI系統提高訓練效率,更可能為未來更大規模、更智能的AI系統鋪平道路。
說到底,OPUS的核心理念其實很簡單:要想做出好菜,不僅要有好食材,還要了解你的烹飪工具,讓食材和工具完美配合。這個簡單的道理在AI訓練中同樣適用,而OPUS正是將這個道理轉化為了可行的技術方案。對於那些正在為AI訓練效率和成本頭疼的研究者和工程師來說,OPUS無疑提供了一個值得嘗試的新選擇。
Q&A
Q1:OPUS數據選擇方法與傳統方法有什麼本質區別?
A:OPUS的核心區別在於它會根據具體使用的優化器(如AdamW、Muon)來選擇數據,而傳統方法都假設使用最簡單的SGD優化器。就像根據不同的烹飪方法來選擇食材,而不是用統一標準選擇所有食材。
Q2:OPUS如何在保證選擇質量的同時控制計算成本?
A:OPUS通過幽靈技術避免完全計算每個樣本的梯度,使用CountSketch投影將高維資訊壓縮到低維空間處理,這樣只增加4.7%的計算開銷就實現了高質量的數據選擇。
Q3:OPUS適用於哪些AI訓練場景?
A:OPUS既適用於從頭開始訓練大語言模型,也適用於在特定領域繼續訓練的場景。實驗表明它在通用數據集FineWeb和專業數據集SciencePedia上都取得了顯著的效果提升。






