普林斯頓大學RLAnything：AI學會一邊學習一邊給自己打分

剛開始學自行車的時候，爸媽可能會扶著你，告訴你向左偏了向右歪了。慢慢地，你學會了自己感知平衡，甚至不用別人說，就知道自己騎得好不好。然後你開始提高難度，先在平坦的小路上練，熟練了再挑戰有坡度的馬路。

贊助商廣告

普林斯頓大學的研究，做的事情本質上就是這個：讓人工智慧也學會這種自我學習的本領。2026年2月2日，研究團隊發布了一篇名為RLAnything的論文，翻譯過來就是強化學習萬能版，意味著這套方法可以用在幾乎任何需要AI自我學習的場景里。

那麼問題來了：為什麼AI學習需要一個新方法？目前的AI學習方式有什麼問題？讓我們一層一層揭開這個故事。

AI學習的老大難問題：做完整件事才知道對不對

想像你是一個正在學做蛋糕的新手。傳統的教學法是這樣的：你按照菜譜一步步操作，打蛋、加糖、攪拌、烤制……最後蛋糕出爐了，老師才告訴你這個蛋糕不好吃，0分。你崩潰地問：那我到底哪一步做錯了？老師卻說：不知道，你自己想去吧。

這就是目前很多AI學習面臨的困境。在強化學習領域，AI通過不斷嘗試和獲得反饋來學習，但反饋往往只在最後一步才給出。比如讓AI操控電腦完成一個任務，它可能需要點擊50次鼠標，但只有在第50次之後，系統才會告訴它任務成功或任務失敗。至於第3次點擊是不是錯了、第17次操作有沒有問題，AI完全不知道。

這種學習方式在長程任務中尤其成問題。比如讓AI幫你訂一張機票，它需要打開瀏覽器、搜索航班、選擇日期、填寫資訊、完成支付……每一步都可能出錯，但如果只在最後告訴AI訂票失敗，它幾乎不可能學會。

妙招一：給AI配一個實時解說員

RLAnything的核心創新之一，就是給AI配備了一個實時解說員。這個解說員的學名叫獎勵模型，但它的作用很像足球比賽中的解說員，不只是在比賽結束時告訴你誰贏了，而是在每一個關鍵動作發生時就給出評價。

贊助商廣告

回到做蛋糕的例子。有了這個實時解說員之後，學習過程變成了這樣：你剛把雞蛋打進碗裡，解說員就說蛋打得不錯，沒有蛋殼碎片；你加糖的時候，解說員說糖量有點少；你開始攪拌的時候，解說員說方向反了……最後蛋糕出爐，解說員再給出一個總分。

研究團隊把這種方法叫做整合反饋，把過程中的反饋和最終結果的反饋整合在一起。這樣既保證了學習方向的正確性，又讓AI能夠從每一個小步驟中學到東西。實驗表明，單純依賴最終結果反饋的AI學習曲線幾乎是平的；而使用整合反饋的AI學習曲線穩步上升。

妙招二：讓解說員也能不斷進步

故事講到這裡，你可能會問：這個解說員哪來的？它怎麼知道每一步做得好不好？

傳統方法需要人類專家來標註，找很多人來看AI的每一步操作，然後給出評分。但這種方法既昂貴又緩慢。RLAnything的第二個創新，就是讓解說員也能夠自我學習。

研究團隊設計了一個巧妙的機制：解說員通過一致性反饋來學習。假設解說員給某一步打了高分，而最終任務成功了，那這個評價就被獎勵；如果解說員給某一步打了高分，但最終任務失敗了，那這個評價就會被懲罰。

這就像是一個足球解說員在學習變得更專業。如果他說這次傳球很精彩，結果球隊進球了，那他的判斷就被驗證是對的；如果他說這次傳球很精彩，結果球被對方搶斷了，那他就應該反思自己的判斷標準。研究團隊還讓解說員對同一個動作進行多次獨立評價，看這些評價是否一致，不一致則可信度降低。

妙招三：AI的專屬遊戲設計師

RLAnything的第三個創新也許是最有趣的：讓AI有一個專屬的遊戲設計師，能夠根據AI的當前水平自動調整任務難度。

你可能玩過那種會根據你的表現調整難度的電子遊戲。如果你打得太好，遊戲會變難；如果你老是失敗，遊戲會稍微簡單一點。研究團隊把這個理念應用到AI學習中：如果AI在某個任務上的成功率超過80%，系統就會把任務變難；如果成功率低於20%，系統就會把任務變簡單。

贊助商廣告

怎麼讓任務變難或變簡單？系統會利用解說員的反饋。解說員會總結AI在這個任務上犯了哪些錯誤，然後系統根據這些錯誤資訊調整任務。

舉個例子。假設AI在學習操作電腦時，有個任務是計算表格中每個員工的年齡。AI失敗了，解說員的反饋是AI點錯了按鈕，把自動求和按鈕當成了函數嚮導按鈕。系統收到這個反饋後，會在任務描述中添加提示，比如使用函數嚮導（fx按鈕）而不是自動求和。這樣AI就能更容易完成任務。

反過來，如果AI表現太好，系統也會讓任務變難。比如在文字冒險遊戲中，如果AI每次都能輕鬆把布料放到抽屜里，系統就會把目標物品換成更難找的肥皂瓶。

研究團隊從理論上證明了這種難度自適應機制不僅對AI的學習有好處，對解說員的學習也有好處，只有當任務難度適中時，整個系統才能運轉得最好。

三個場景的實戰檢驗

研究團隊在三個不同場景中測試了RLAnything的效果。

第一個場景是電腦操作。研究團隊使用OSWorld測試平台，讓AI在真實電腦環境中完成各種任務，比如操作表格軟體、製作演示文稿等。經過RLAnything訓練後，模型準確率從35.8%提升到了44.9%，提升了9.1個百分點。

第二個場景是文字冒險遊戲。這是一個叫Alf World的模擬環境，AI需要通過文字命令在虛擬房間中導航、拿取物品、完成家務任務。經過訓練後，模型表現從44.9%提升到了63.6%，提升了18.7個百分點。有趣的是，AI在訓練過程中逐漸學會了思考，一開始往往不經思考就直接行動，訓練後會先進行一段推理再執行動作。

第三個場景是寫代碼。研究團隊讓AI學習寫程序解決編程問題，同時讓另一個AI學習生成測試用例。在LiveBench測試中，準確率從31.3%提升到了43.2%，提升了11.9個百分點。

在所有場景中，解說員的判斷能力也在不斷提升。在電腦操作場景中，解說員判斷單步動作質量的準確率從86%提升到了91.3%，驗證了解說員和AI相互促進的設計理念。

贊助商廣告

一個意外發現：AI給自己打分比人類標註還管用

研究過程中有一個令人驚訝的發現：經過優化的解說員給出的評分，居然比人類專家標註的結果還要有效。

研究團隊嘗試完全不使用人類標註的最終結果，只使用優化後的解說員給出的過程評分來訓練AI。結果出乎意料，只用解說員評分訓練的AI，表現甚至超過了使用人類標註結果訓練的AI。這意味著系統有潛力實現真正的自我進化，AI可以在真實環境中不斷學習，而不需要人類持續提供反饋。

研究團隊還觀察到系統生成新任務的速度幾乎是線性增長的。在大約200步訓練中，電腦操作場景生成了約270個新任務，而且96%以上的新任務都是有效的。這意味著系統不僅在學習如何完成任務，還在學習如何設計好的任務。

至頂AI實驗室洞見

RLAnything解決的根本的問題是：如何讓學習者從有限的反饋中獲得最大的收益？

人類學習的秘訣，在於我們有老師、有教練、有教材，還有自我反思的能力。RLAnything給AI配備了類似的裝備：解說員相當於教練，給出及時反饋；難度自適應機制相當於個性化教材；一致性學習機制相當於自我反思。

這項研究指出了一條通往更加自主的AI系統的道路。當AI可以自己給自己打分、自己調整學習難度、自己驗證學習效果時，它就不再那麼依賴人類的持續監督了。當然，這也帶來了需要思考的問題：如果AI真的能夠完全自我進化，我們如何確保它學到的是我們想要它學的東西？

END

本文來自至頂AI實驗室，一個專注於探索生成式AI前沿技術及其應用的實驗室。致力於推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

Q&A

Q1：RLAnything是什麼？它解決了什麼問題？

A：RLAnything是普林斯頓大學研究團隊開發的AI強化學習框架。它解決的核心問題是AI在複雜任務中反饋信號太稀疏的問題，通過讓AI同時獲得過程評分和最終結果評分，並能自動調整任務難度，讓AI學習變得更高效。

Q2：這項研究和ChatGPT有什麼關係？

A：ChatGPT等大語言模型也使用強化學習來改進表現，但主要在單輪對話上進行優化。RLAnything專注於解決需要多步驟交互才能完成的複雜任務，比如操控電腦完成一系列操作，可以用來訓練更強大的AI助手。

贊助商廣告

Q3：這種自我學習的AI會不會失控？

A：目前RLAnything的自我學習仍在人類設定的任務範圍內進行，AI學習的目標由人類定義。但隨著AI自主能力增強，如何確保AI的學習方向與人類期望一致，確實是需要持續研究的重要課題。