宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

螞蟻集團發布UI-Venus-1.5:手機和網頁操作再也不用親自動手?

2026年02月11日 首頁 » 熱門科技

這項由螞蟻集團Venus團隊領導的研究發表於2025年,有興趣深入了解的讀者可以通過論文編號arXiv:2602.09082v1查詢完整論文。

在我們日常生活中,幾乎每個人都有過這樣的經歷:需要在手機上完成一連串複雜操作,比如訂票、購物、轉賬,或者在電腦上處理各種網頁任務。這些看似簡單的點擊、滑動、輸入操作,實際上需要我們的眼睛識別螢幕內容,大腦理解當前狀態,手指執行精準動作。如果有一個智能助手能夠像人類一樣"看懂"螢幕、"理解"任務、"操作"設備,那會是什麼樣的體驗?

螞蟻集團的研究團隊就在朝著這個方向努力。他們最新發布的UI-Venus-1.5就是這樣一個"數字世界的萬能操作員"。這個系統可以像一個非常聰明的助理一樣,你只需要用自然語言告訴它"幫我在某個App里買張電影票"或者"幫我在網頁上搜索並預訂酒店",它就能自動完成所有複雜的點擊、滑動、輸入操作。

這聽起來很神奇,但實現起來卻相當困難。就像訓練一個從未見過手機的人學會使用各種App一樣,電腦需要學會"看"螢幕截圖,"理解"用戶意圖,然後"規劃"並"執行"一系列操作。更困難的是,不同的應用界面千差萬別,用戶的需求也各不相同,系統必須具備強大的泛化能力。

UI-Venus-1.5在多個權威測試中都取得了突破性成果。在ScreenSpot-Pro測試中準確率達到69.6%,在VenusBench-GD測試中達到75.0%,在AndroidWorld移動設備操作測試中更是達到77.6%的成功率。這些數字意味著什麼呢?簡單來說,就是如果給它100個操作任務,它能成功完成75個以上,這已經接近人類操作員的水平。

更重要的是,研究團隊還專門針對中國用戶的使用習慣進行了優化,讓系統能夠熟練操作40多個中國主流手機應用,包括訂票、購物、聊天等各種常見場景。這意味著這項技術不僅僅是實驗室里的研究成果,而是真正貼近中國用戶實際需求的實用工具。

**一、從三個"專科醫生"到一個"全科醫生"**

在UI-Venus-1.5之前,研究團隊發布的上一代系統UI-Venus-1.0雖然已經很優秀,但有一個明顯的局限性:就像醫院裡的專科醫生一樣,它需要針對不同任務訓練不同的專門模型。處理手機操作需要一個"手機專家",處理網頁操作需要一個"網頁專家",處理螢幕元素定位又需要一個"定位專家"。

這種設計雖然在各自領域表現出色,但在實際應用中卻很不方便。用戶使用時需要根據不同場景切換不同的模型,就像看病時需要在不同科室間奔波一樣麻煩。而且,這些專門模型之間無法互相學習和補充,限制了整體能力的提升。

UI-Venus-1.5的最大突破就是實現了"全科醫生"式的統一設計。研究團隊通過巧妙的模型融合技術,將原本分離的三個專門模型合併成了一個統一的智能系統。這個過程就像把三個專科醫生的知識和經驗完美融合到一個全科醫生身上,既保留了各自的專業優勢,又實現了知識的互通有無。

具體來說,研究團隊採用了一種叫做"TIES-Merge"的先進融合技術。這種技術的工作原理類似於調製完美的雞尾酒:不是簡單地把三種不同的酒混合在一起,而是精確計算每種成分的最佳比例,去除相互衝突的部分,保留最精華的特性。通過這種方法,最終的統一模型不僅保持了原有專門模型的強項,甚至在某些任務上表現得更好。

測試結果證明了這種設計的成功。統一後的UI-Venus-1.5在ScreenSpot-Pro測試中雖然比專門的定位模型略微下降了1.4%,但在AndroidWorld移動操作測試中反而提升了2.1%。這種細微的性能平衡換來了巨大的實用性提升:用戶現在只需要一個模型就能處理所有類型的界面操作任務。

**二、給AI"惡補"十億字的界面操作課程**

要讓一個AI系統真正理解如何操作各種界面,就像教一個人學會使用各種複雜設備一樣,需要大量的學習和練習。UI-Venus-1.5的訓練過程可以比作一個四階段的"從入門到精通"課程。

第一階段是"基礎知識惡補",研究團隊稱之為Mid-Training階段。這就像給學生提供一個包含100億個文字的超級教科書,涵蓋了30多個不同數據集的內容。這些內容包括各種界面的截圖、操作步驟、用戶意圖等基礎知識。系統通過學習這些內容,逐步建立起對圖形界面操作的基本認知。

這個階段的重要性不可低估。就像人類在學習使用新設備時需要先了解基本概念一樣,AI系統也需要先掌握"什麼是按鈕"、"如何理解菜單結構"、"用戶指令通常是什麼意思"等基礎知識。研究團隊發現,經過這個階段的訓練後,系統的界面理解能力有了質的提升。

第二階段是"專項技能訓練",也就是Offline-RL階段。在掌握了基礎知識後,系統開始針對三個不同方向進行專門訓練:界面元素定位、手機操作、網頁操作。這就像一個學生在掌握了基礎知識後,分別學習數學、物理、化學等不同學科一樣。

第三階段是"實戰演練",即Online-RL階段。光有理論知識是不夠的,系統需要在真實環境中不斷練習和改進。研究團隊構建了一個龐大的在線練習平台,讓系統在真實的手機和網頁環境中執行各種任務,從成功和失敗中學習經驗。這個過程就像駕校學員從理論學習轉向實際道路練習一樣關鍵。

第四階段是"知識融合",即Model Merge階段。在三個專項技能都達到一定水平後,研究團隊將這些分散的專業知識融合成一個統一的智能系統。這個過程需要精心平衡各部分的貢獻,確保融合後的系統既保持了各項專業技能,又能夠靈活應對各種複雜場景。

整個訓練過程的成果非常顯著。從數據分析來看,經過Mid-Training階段後,系統對界面元素的聚類分離度提升了34%,說明它能更準確地區分不同類型的界面元素。經過完整訓練後的最終系統在各項測試中都表現出色,證明了這種漸進式訓練方法的有效性。

**三、在真實世界中邊玩邊學的聰明系統**

傳統的AI訓練就像讓學生只看教科書而不做實驗一樣,雖然能掌握理論知識,但在面對真實世界的複雜情況時往往表現不佳。UI-Venus-1.5的一個重要創新就是引入了"邊玩邊學"的在線強化學習機制。

研究團隊發現了一個有趣的現象:在傳統的離線訓練中,AI系統的單步操作準確率雖然在提升,但完整任務的成功率卻可能下降。這就像一個學生雖然每道題都會做,但面對完整試卷時卻無法取得好成績一樣。原因在於,現實世界的任務通常需要多個步驟協調配合,而不是簡單的單步操作累加。

為了解決這個問題,研究團隊開發了一個名為"設備即服務"(DaaS)的創新平台。這個平台就像一個巨大的"數字設備練習場",包含了數千台不同類型的真實設備,支持Android手機、Chrome瀏覽器、Linux系統等多種環境。AI系統可以在這個平台上進行真實的操作練習,從實際執行的結果中學習如何改進。

這種在線學習的效果非常顯著。系統不再只是簡單地模仿訓練數據中的操作,而是能夠根據實際執行結果調整策略。比如,當它發現某個操作沒有達到預期效果時,會自動嘗試其他方法,並將成功的經驗記錄下來用於未來的類似情況。

在任務生成方面,研究團隊也採用了非常巧妙的策略。他們不是簡單地使用預設的任務清單,而是動態生成各種難度的任務,並根據系統的能力水平進行調整。簡單任務(10步以內完成)、中等任務(10-20步)和複雜任務(20步以上)按比例混合,確保系統能夠循序漸進地提升能力。

更有趣的是,系統還具備了"自我反思"的能力。當完成一個任務後,它會分析整個操作過程,識別哪些步驟是必要的,哪些是多餘的,然後調整策略以在將來執行類似任務時更加高效。這種能力讓它能夠不斷優化操作流程,就像一個經驗豐富的操作員會總結經驗、提升效率一樣。

通過這種在線強化學習,UI-Venus-1.5在AndroidWorld測試中的成功率從傳統訓練方法的55%左右提升到了77.6%,這是一個非常顯著的提升。更重要的是,系統學會了如何處理那些在訓練數據中沒有見過的新情況,這種泛化能力是AI系統走向實用的關鍵。

**四、數據質量管理的"品控系統"**

在AI訓練中,數據質量就像食材對於烹飪的重要性一樣關鍵。即使有最好的廚師和最先進的廚具,如果食材質量不佳,最終的菜品也不會令人滿意。UI-Venus-1.5的研究團隊深刻理解這一點,因此建立了一套嚴格的數據質量管理體系。

研究團隊面臨的一個挑戰是,從網際網路收集的界面操作數據往往存在各種問題:有些操作步驟不正確,有些任務描述不清楚,有些截圖質量較差,還有些數據存在邏輯錯誤。如果直接使用這些"污染"的數據進行訓練,就像用變質食材做菜一樣,很難得到理想的結果。

為了解決這個問題,研究團隊設計了一個多層次的數據清理和改進流程。首先,他們使用一個強大的AI評判員(基於Qwen3-VL-235B模型)來對所有收集到的數據進行質量評分,分數從0到10分。這個評判員會檢查操作步驟是否合理、任務描述是否清晰、最終結果是否正確等多個維度。

根據評分結果,數據被分成三個等級:高質量數據(7分以上)直接保留用於訓練;中等質量數據(4-6分)會被送去"修復車間"進行改進;低質量數據(0-3分)則被徹底重寫或丟棄。這種分級處理的方式確保了訓練數據的整體質量。

對於需要修復的中等質量數據,研究團隊開發了智能的改寫系統。這個系統會分析數據中的問題所在,然後生成改進版本。比如,如果一個操作序列在某個步驟出現錯誤,系統會根據前後文語境生成正確的操作步驟。

更有趣的是,研究團隊還建立了一個"數據生產線",能夠自動生成高質量的訓練數據。這個系統會首先生成各種合理的任務描述,然後讓AI系統在真實設備上嘗試執行這些任務,記錄整個操作過程。成功的操作序列會被保留作為訓練數據,失敗的嘗試也會被分析,用於改進系統的理解能力。

通過這套嚴格的數據質量管理體系,研究團隊將高質量訓練數據的比例從初始的69.7%提升到了89.7%。這種質量提升直接轉化為了系統性能的改善,證明了"好數據勝過大數據"這一原則的正確性。

**五、讓AI學會說"我做不到"的智慧**

在現實生活中,一個真正可靠的助手不僅要知道如何完成任務,更要知道什麼時候應該說"我做不到"。UI-Venus-1.5的一個重要特性就是具備了這種"拒絕能力",這聽起來簡單,實際上卻是AI系統走向實用的關鍵一步。

研究團隊發現,許多現有的AI界面作業系統存在一個嚴重問題:即使面對不可能完成的任務,它們也會強行給出一個操作建議。比如,當用戶要求點擊一個根本不存在的按鈕時,系統可能會隨機選擇一個位置進行點擊,這不僅無法完成任務,還可能造成意外的操作後果。

為了解決這個問題,UI-Venus-1.5被訓練成能夠識別和拒絕不合理的請求。當系統判斷某個任務無法完成時,它會返回一個特殊的坐標"[-1, -1]",表示"我找不到你說的那個東西"。這種設計看似簡單,但實現起來卻需要系統具備深層的理解能力。

這種拒絕能力的訓練過程很有趣。研究團隊特意在訓練數據中加入了各種"不可能任務"的例子,教系統學會識別什麼樣的要求是不合理的。比如,在一個購物應用的截圖中要求系統點擊"發送郵件"按鈕,或者在一個文本編輯界面要求播放影片等明顯不合理的請求。

在VenusBench-GD測試中,UI-Venus-1.5在包含拒絕任務的測試中表現出色,這證明了它不僅能夠完成正確的操作,還能夠識別和拒絕不合理的請求。這種能力對於實際應用來說至關重要,因為它大大降低了系統出現意外行為的風險。

有趣的是,研究團隊發現,添加拒絕能力雖然在某些不包含拒絕任務的基準測試中可能會略微降低系統的表現,但在包含拒絕任務的更全面測試中,系統的整體可靠性得到了顯著提升。這就像教一個人學會說"不"雖然可能讓他看起來不那麼"聽話",但卻讓他變得更加可靠和值得信賴。

**六、在40多個中國App中的"實戰演練"**

理論上的成功和實際應用中的可用性往往存在巨大差距。UI-Venus-1.5的研究團隊深知這一點,因此特別重視系統在真實中國移動應用生態中的表現。他們選擇了40多個中國用戶最常使用的手機應用進行專門優化和測試。

這些應用涵蓋了中國用戶日常生活的各個方面:社交通訊、電商購物、出行服務、金融支付、娛樂媒體等。每個應用都有自己獨特的界面設計風格、操作邏輯和用戶體驗模式。比如,中國的電商應用往往功能複雜、頁面資訊密集,而社交應用則更注重即時性和便捷操作。

研究團隊發現,中國移動應用的一些特點給AI作業系統帶來了獨特挑戰。首先是界面的高密度資訊排布,一個螢幕上可能包含數十個可點擊元素,系統需要準確識別用戶真正想要操作的目標。其次是複雜的多步驟任務流程,比如完成一次購買可能需要選擇商品、比較價格、選擇規格、添加到購物車、結算支付等多個步驟。

為了應對這些挑戰,研究團隊專門設計了針對中國應用場景的訓練策略。他們收集了大量真實的中國用戶操作數據,分析了用戶在不同應用中的行為模式和偏好。比如,他們發現中國用戶在購物時往往會仔細比較商品評價,在出行時會關注實時路況資訊,在社交時偏好使用語音和表情符號等。

系統的中文理解能力也得到了特別加強。中國用戶的指令往往更加口語化和情境化,比如"幫我買個便宜點的"、"找個評分高的餐廳"、"給我媽轉點錢"等。這些指令不僅需要理解字面意思,還要理解背後的意圖和偏好。

在實際測試中,UI-Venus-1.5展現出了令人印象深刻的能力。它能夠成功完成諸如"在音樂應用中播放新歌榜第四首並加入收藏"、"在外賣應用中訂一份評分最高的川菜"、"在出行應用中預訂明天去機場的車"等複雜任務。這些任務不僅涉及多個操作步驟,還需要理解用戶的個性化需求。

更重要的是,系統還學會了處理中國應用中常見的各種"意外情況",比如彈出的廣告、需要驗證碼的登錄流程、網路延遲導致的頁面加載緩慢等。這種應對能力讓它在真實使用環境中更加可靠。

**七、技術創新背後的工程智慧**

UI-Venus-1.5的成功不僅來自於算法的創新,更來自於工程實現上的巧思。研究團隊構建了一個名為"設備即服務"(DaaS)的技術平台,這個平台就像一個巨大的"數字設備牧場",能夠同時管理和操控數千台不同類型的設備。

這個平台的設計理念很有趣:將分散在世界各地的各種設備(手機、平板、電腦等)統一管理,就像雲計算將分散的計算資源整合起來一樣。研究人員可以通過網路遠程訪問這些設備,讓AI系統在真實環境中進行訓練和測試,而不需要在每個實驗室都配備大量的實體設備。

平台的技術架構採用了一些很巧妙的設計。比如,為了處理不同設備使用不同通信協議的問題,他們開發了一個統一的"翻譯器"系統,能夠將標準的操作指令翻譯成各種設備能夠理解的具體命令。這就像一個能夠同時說多種語言的翻譯官,讓不同"語言"的設備都能理解AI系統的指令。

在性能優化方面,研究團隊也下了很多功夫。他們採用了一種叫做"二級哈希路由"的技術,確保對同一設備的所有操作請求都由同一個伺服器處理,避免了不同伺服器之間的協調開銷。這種設計讓系統能夠同時處理數以萬計的並發操作請求,而且延遲極低。

更有意思的是,整個平台採用了協程並發模型,這種設計特別適合處理大量的設備操作請求。就像一個高效的餐廳服務員可以同時為多桌客人服務一樣,每個伺服器都可以同時處理成千上萬的設備連接,大大提升了系統的效率。

在數據處理方面,研究團隊還實現了"零拷貝"的高速數據傳輸技術。當需要在不同伺服器間轉發數據時,系統不需要重複複製數據,而是直接傳遞數據的"位置資訊",這樣大大減少了內存占用和傳輸延遲。

這些工程創新的成果是顯著的:整個平台能夠穩定支持數千台異構設備的並發操作,設備分配和調度的響應時間達到毫秒級,每天能夠處理數百萬次操作請求。這種工程能力為AI系統的大規模訓練和測試提供了堅實的基礎。

**八、從實驗數據看真實實力**

數字往往比文字更有說服力。UI-Venus-1.5在各項權威測試中的表現確實令人印象深刻,但更重要的是理解這些數字背後的真實含義。

在界面元素定位能力測試中,UI-Venus-1.5在ScreenSpot-Pro這個被認為最具挑戰性的測試中達到了69.6%的準確率。這個測試的難點在於它包含了大量專業軟體的高解析度界面,比如CAD設計軟體、開發工具、創意製作軟體等。這些軟體的界面通常資訊密度極高,按鈕和菜單項非常小且密集排列。69.6%的準確率意味著AI系統已經接近人類在這些複雜界面上的操作精度。

在VenusBench-GD測試中,系統達到了75.0%的成績。這個測試的特殊之處在於它不僅要求系統能夠找到正確的界面元素,還要能夠理解複雜的用戶指令,甚至包括一些需要拒絕的不合理請求。75.0%的成績表明系統不僅具備了精確的定位能力,還具備了良好的任務理解和判斷能力。

最令人印象深刻的是在AndroidWorld移動設備操作測試中77.6%的成功率。這個測試模擬了真實的手機使用場景,包括116個不同的任務,涉及20個真實的Android應用。77.6%的成功率意味著,如果給系統100個手機操作任務,它能夠成功完成近78個。考慮到這些任務的複雜性和多樣性,這個成績已經非常接近熟練人類用戶的表現水平。

有一個有趣的發現是,系統在不同規模版本間的性能表現。2B參數的"輕量版"在AndroidWorld測試中達到了55.6%的成功率,8B參數的"標準版"達到73.7%,30B參數的"專業版"達到77.6%。這種規律性的提升表明,增加模型規模確實能夠帶來能力的顯著改善。

在網頁操作能力測試WebVoyager中,UI-Venus-1.5達到了76.0%的成功率。這個測試涵蓋了15個真實網站的操作任務,包括電商、旅行、社交等各種平台。76.0%的成績表明系統已經具備了處理複雜網頁交互的能力。

更重要的是,研究團隊還測試了系統處理中國移動應用的能力。在VenusBench-Mobile這個專門針對中國應用設計的測試中,UI-Venus-1.5的30B版本達到了21.5%的成功率。雖然這個數字看起來不高,但要知道這個測試的難度極高,涉及的都是需要多步驟完成的複雜任務,而且很多任務都需要理解中文語境和中國用戶的使用習慣。

通過與其他系統的對比,UI-Venus-1.5的優勢更加明顯。在大多數測試中,它都顯著超過了其他同類系統的表現,有些甚至超出10個百分點以上。這種領先優勢不是偶然的,而是源於其獨特的訓練方法和技術創新。

**九、實用化道路上的思考與展望**

雖然UI-Venus-1.5在各項測試中表現出色,但從實驗室成果到真正的日常應用工具,還有一段路要走。研究團隊對此保持著清醒的認識,也在積極思考如何讓這項技術更好地服務於普通用戶。

首先是可靠性的問題。77.6%的成功率雖然已經很高,但對於關鍵任務來說可能還不夠。想像一下,如果你讓AI幫你轉賬,但它有20%的概率出錯,你會放心使用嗎?因此,研究團隊正在努力進一步提升系統的可靠性,特別是在涉及金融、健康等敏感領域的操作上。

其次是個性化的需求。每個用戶都有自己獨特的使用習慣和偏好,比如有人喜歡詳細比較商品資訊,有人偏好快速決策;有人習慣使用語音輸入,有人更喜歡文字交流。未來的版本需要能夠學習和適應每個用戶的個性化需求。

隱私保護也是一個重要考量。AI系統需要訪問用戶的螢幕內容才能進行操作,這可能涉及個人隱私資訊。如何在提供便利服務的同時保護用戶隱私,是技術發展必須面對的挑戰。研究團隊正在探索各種隱私保護技術,確保用戶數據的安全。

從技術角度看,目前的系統主要依靠視覺資訊進行操作,但在某些場景下,結合其他資訊源可能會有更好的效果。比如,結合應用的API資訊、用戶的歷史行為數據、當前的情境資訊等,可能會讓操作更加精準和高效。

另一個有趣的發展方向是多模態交互。目前用戶主要通過文字指令與系統交互,但在實際使用中,用戶可能更喜歡通過語音、手勢,甚至是眼神來指導AI的操作。這種更自然的交互方式可能會大大提升用戶體驗。

從應用場景來看,AI界面操作助手最有可能首先在一些特定領域得到廣泛應用。比如,幫助老年人使用複雜的智能設備,協助身體殘疾的用戶進行設備操作,或者在企業中自動化執行重複性的界面操作任務。

教育領域也是一個很有潛力的應用方向。AI助手可以幫助學生學習如何使用各種軟體工具,通過示範和指導讓學習過程更加高效。同時,它也可以幫助老師創建更豐富的交互式教學內容。

說到底,UI-Venus-1.5代表的不僅僅是一項技術突破,更是人機交互方式的一次重要探索。它讓我們看到了一個可能的未來:人們不再需要學習複雜的操作步驟,而是可以用自然語言直接表達需求,讓AI來處理所有繁瑣的界面操作。這種變化可能會像智慧型手機的普及一樣,深刻改變人們與數字設備的交互方式。

當然,技術的發展總是伴隨著新的挑戰和思考。如何確保AI助手真正理解用戶意圖?如何處理複雜情境下的決策?如何平衡自動化與用戶控制?這些問題都需要在技術發展過程中逐步解決。

但不管怎樣,UI-Venus-1.5的出現讓我們距離那個"人人都有智能助手"的未來又近了一步。也許不久的將來,我們真的可以像科幻電影中那樣,只需要動動嘴就能完成各種複雜的設備操作任務。

Q&A

Q1:UI-Venus-1.5能操作哪些設備和應用?

A:UI-Venus-1.5主要支持Android手機、網頁瀏覽器等設備,能夠操作40多個中國主流移動應用,包括購物、社交、出行、金融等各類常見應用,同時也支持各種網頁操作任務。

Q2:UI-Venus-1.5的操作準確率有多高?

A:在不同測試中表現不同,在AndroidWorld移動設備測試中達到77.6%成功率,在ScreenSpot-Pro界面定位測試中達到69.6%準確率,在VenusBench-GD綜合測試中達到75.0%準確率,整體已接近人類操作水平。

Q3:普通用戶什麼時候能使用UI-Venus-1.5?

A:目前還處於研究階段,雖然在實驗環境中表現出色,但要成為日常可用的產品還需要進一步提升可靠性、解決隱私保護等問題,預計首先會在特定領域如輔助老年人使用設備等場景中應用。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新