
普林斯頓大學的研究,做的事情本質上就是這個:讓人工智慧也學會這種自我學習的本領。2026年2月2日,研究團隊發布了一篇名為RLAnything的論文,翻譯過來就是強化學習萬能版,意味著這套方法可以用在幾乎任何需要AI自我學習的場景里。
那麼問題來了:為什麼AI學習需要一個新方法?目前的AI學習方式有什麼問題?讓我們一層一層揭開這個故事。
AI學習的老大難問題:做完整件事才知道對不對
想像你是一個正在學做蛋糕的新手。傳統的教學法是這樣的:你按照菜譜一步步操作,打蛋、加糖、攪拌、烤制……最後蛋糕出爐了,老師才告訴你這個蛋糕不好吃,0分。你崩潰地問:那我到底哪一步做錯了?老師卻說:不知道,你自己想去吧。
這就是目前很多AI學習面臨的困境。在強化學習領域,AI通過不斷嘗試和獲得反饋來學習,但反饋往往只在最後一步才給出。比如讓AI操控電腦完成一個任務,它可能需要點擊50次鼠標,但只有在第50次之後,系統才會告訴它任務成功或任務失敗。至於第3次點擊是不是錯了、第17次操作有沒有問題,AI完全不知道。
這種學習方式在長程任務中尤其成問題。比如讓AI幫你訂一張機票,它需要打開瀏覽器、搜索航班、選擇日期、填寫資訊、完成支付……每一步都可能出錯,但如果只在最後告訴AI訂票失敗,它幾乎不可能學會。
妙招一:給AI配一個實時解說員
RLAnything的核心創新之一,就是給AI配備了一個實時解說員。這個解說員的學名叫獎勵模型,但它的作用很像足球比賽中的解說員,不只是在比賽結束時告訴你誰贏了,而是在每一個關鍵動作發生時就給出評價。

回到做蛋糕的例子。有了這個實時解說員之後,學習過程變成了這樣:你剛把雞蛋打進碗裡,解說員就說蛋打得不錯,沒有蛋殼碎片;你加糖的時候,解說員說糖量有點少;你開始攪拌的時候,解說員說方向反了……最後蛋糕出爐,解說員再給出一個總分。
研究團隊把這種方法叫做整合反饋,把過程中的反饋和最終結果的反饋整合在一起。這樣既保證了學習方向的正確性,又讓AI能夠從每一個小步驟中學到東西。實驗表明,單純依賴最終結果反饋的AI學習曲線幾乎是平的;而使用整合反饋的AI學習曲線穩步上升。
妙招二:讓解說員也能不斷進步
故事講到這裡,你可能會問:這個解說員哪來的?它怎麼知道每一步做得好不好?
傳統方法需要人類專家來標註,找很多人來看AI的每一步操作,然後給出評分。但這種方法既昂貴又緩慢。RLAnything的第二個創新,就是讓解說員也能夠自我學習。
研究團隊設計了一個巧妙的機制:解說員通過一致性反饋來學習。假設解說員給某一步打了高分,而最終任務成功了,那這個評價就被獎勵;如果解說員給某一步打了高分,但最終任務失敗了,那這個評價就會被懲罰。
這就像是一個足球解說員在學習變得更專業。如果他說這次傳球很精彩,結果球隊進球了,那他的判斷就被驗證是對的;如果他說這次傳球很精彩,結果球被對方搶斷了,那他就應該反思自己的判斷標準。研究團隊還讓解說員對同一個動作進行多次獨立評價,看這些評價是否一致,不一致則可信度降低。
妙招三:AI的專屬遊戲設計師
RLAnything的第三個創新也許是最有趣的:讓AI有一個專屬的遊戲設計師,能夠根據AI的當前水平自動調整任務難度。

你可能玩過那種會根據你的表現調整難度的電子遊戲。如果你打得太好,遊戲會變難;如果你老是失敗,遊戲會稍微簡單一點。研究團隊把這個理念應用到AI學習中:如果AI在某個任務上的成功率超過80%,系統就會把任務變難;如果成功率低於20%,系統就會把任務變簡單。
怎麼讓任務變難或變簡單?系統會利用解說員的反饋。解說員會總結AI在這個任務上犯了哪些錯誤,然後系統根據這些錯誤資訊調整任務。
舉個例子。假設AI在學習操作電腦時,有個任務是計算表格中每個員工的年齡。AI失敗了,解說員的反饋是AI點錯了按鈕,把自動求和按鈕當成了函數嚮導按鈕。系統收到這個反饋後,會在任務描述中添加提示,比如使用函數嚮導(fx按鈕)而不是自動求和。這樣AI就能更容易完成任務。
反過來,如果AI表現太好,系統也會讓任務變難。比如在文字冒險遊戲中,如果AI每次都能輕鬆把布料放到抽屜里,系統就會把目標物品換成更難找的肥皂瓶。
研究團隊從理論上證明了這種難度自適應機制不僅對AI的學習有好處,對解說員的學習也有好處,只有當任務難度適中時,整個系統才能運轉得最好。
三個場景的實戰檢驗
研究團隊在三個不同場景中測試了RLAnything的效果。

第一個場景是電腦操作。研究團隊使用OSWorld測試平台,讓AI在真實電腦環境中完成各種任務,比如操作表格軟體、製作演示文稿等。經過RLAnything訓練後,模型準確率從35.8%提升到了44.9%,提升了9.1個百分點。
第二個場景是文字冒險遊戲。這是一個叫Alf World的模擬環境,AI需要通過文字命令在虛擬房間中導航、拿取物品、完成家務任務。經過訓練後,模型表現從44.9%提升到了63.6%,提升了18.7個百分點。有趣的是,AI在訓練過程中逐漸學會了思考,一開始往往不經思考就直接行動,訓練後會先進行一段推理再執行動作。
第三個場景是寫代碼。研究團隊讓AI學習寫程序解決編程問題,同時讓另一個AI學習生成測試用例。在LiveBench測試中,準確率從31.3%提升到了43.2%,提升了11.9個百分點。
在所有場景中,解說員的判斷能力也在不斷提升。在電腦操作場景中,解說員判斷單步動作質量的準確率從86%提升到了91.3%,驗證了解說員和AI相互促進的設計理念。
一個意外發現:AI給自己打分比人類標註還管用
研究過程中有一個令人驚訝的發現:經過優化的解說員給出的評分,居然比人類專家標註的結果還要有效。
研究團隊嘗試完全不使用人類標註的最終結果,只使用優化後的解說員給出的過程評分來訓練AI。結果出乎意料,只用解說員評分訓練的AI,表現甚至超過了使用人類標註結果訓練的AI。這意味著系統有潛力實現真正的自我進化,AI可以在真實環境中不斷學習,而不需要人類持續提供反饋。

研究團隊還觀察到系統生成新任務的速度幾乎是線性增長的。在大約200步訓練中,電腦操作場景生成了約270個新任務,而且96%以上的新任務都是有效的。這意味著系統不僅在學習如何完成任務,還在學習如何設計好的任務。
至頂AI實驗室洞見
RLAnything解決的根本的問題是:如何讓學習者從有限的反饋中獲得最大的收益?
人類學習的秘訣,在於我們有老師、有教練、有教材,還有自我反思的能力。RLAnything給AI配備了類似的裝備:解說員相當於教練,給出及時反饋;難度自適應機制相當於個性化教材;一致性學習機制相當於自我反思。
這項研究指出了一條通往更加自主的AI系統的道路。當AI可以自己給自己打分、自己調整學習難度、自己驗證學習效果時,它就不再那麼依賴人類的持續監督了。當然,這也帶來了需要思考的問題:如果AI真的能夠完全自我進化,我們如何確保它學到的是我們想要它學的東西?
END
Q&A
Q1:RLAnything是什麼?它解決了什麼問題?
A:RLAnything是普林斯頓大學研究團隊開發的AI強化學習框架。它解決的核心問題是AI在複雜任務中反饋信號太稀疏的問題,通過讓AI同時獲得過程評分和最終結果評分,並能自動調整任務難度,讓AI學習變得更高效。
Q2:這項研究和ChatGPT有什麼關係?
A:ChatGPT等大語言模型也使用強化學習來改進表現,但主要在單輪對話上進行優化。RLAnything專注於解決需要多步驟交互才能完成的複雜任務,比如操控電腦完成一系列操作,可以用來訓練更強大的AI助手。
Q3:這種自我學習的AI會不會失控?
A:目前RLAnything的自我學習仍在人類設定的任務範圍內進行,AI學習的目標由人類定義。但隨著AI自主能力增強,如何確保AI的學習方向與人類期望一致,確實是需要持續研究的重要課題。






