微軟正在為其Microsoft 365 Copilot"研究"智能體擴展新的多模型功能,旨在提高AI生成研究輸出的準確性和深度。
此次更新引入了"批評"系統,該系統為生成和評估分配單獨的角色,同時還有一個"委員會"功能,可以比較多個模型的輸出,並突出顯示一致性、分歧點和獨特見解。
使用DRACO基準測試的內部測試顯示,配備批評系統的研究智能體在綜合評分上超越了之前報告的系統13.8%(7.0分)。
"我們看到分析廣度和深度方面的改善最大(+3.33),其次是呈現質量(+3.04)和事實準確性(+2.58),"微軟在部落格文章中表示。"所有維度都顯示出統計學意義上的顯著改善(配對t檢驗,p
委員會功能並行運行多個模型以生成獨立報告,通過判斷系統綜合關鍵差異和見解,幫助IT團隊比較不同的解讀。
"簡單來說,這就像擁有一個聰明的專業人員加上一個嚴格的審查員,"Pareekh諮詢公司CEO Pareekh Jain說道。"但這仍然是漸進式的,不是魔法。它減少了錯誤但不能完全消除錯誤。"
其他專家指出,僅僅模型協調可能不足以推動有意義的企業成果。
"多模型系統在與CRM和HRM系統等內部企業數據集成時才能發揮其全部潛力,"Counterpoint Research研究副總裁Neil Shah說道。"這確保了AI驅動的洞察在上下文中具有細緻入微的特點,反映公司獨特的市場地位、客戶特徵和決策者的具體要求。"
基準測試的局限性與現實考量
微軟的DRACO基準測試結果看起來很強,但企業應該謹慎對待它們。
"將其視為最佳情況測試;它顯示AI模型可以相互檢查並發現錯誤,但真實的公司數據要複雜得多,包含衝突資訊和過時文檔,"Jain說道。"還存在判斷偏見的風險;如果兩個AI相似,審查員可能會錯過相同的錯誤。雖然基準測試衡量邏輯,但它們無法捕捉真正的商業價值。"
向多模型系統的轉變為企業IT團隊引入了新的操作複雜性層面。系統更強大,但也更難管理。
組織現在必須跟蹤包括初始草稿、批評和最終輸出的交互鏈,而不是單一的輸入輸出流。
"這創建了更大的審計跟蹤,安全和合規團隊必須審查以了解決策是如何制定的,"Jain補充道。"它還增加了成本和延遲,因為一個問題可以觸發許多模型調用。另一個挑戰是責任歸屬。如果出現問題,很難知道哪個部分失敗了,比如生成器、審查員還是管理它們的系統。"
分析師表示,這將要求企業重新思考圍繞AI部署的治理框架。
"企業必須優先考慮對模型到輸出選擇過程的治理,以及如何混合或選擇多個響應的細化,"Shah說道。"這種持續監控和校準將成為流程質量管理的基本組成部分。"Shah補充說,企業還需要結構化機制來評估輸出及其現實影響,確保整個決策過程的可追溯性,並改善多模型系統隨時間的管理方式。
Q&A
Q1:微軟Copilot研究智能體的多模型功能是什麼?
A:這是微軟為Microsoft 365 Copilot"研究"智能體新增的功能,包括"批評"系統和"委員會"功能。批評系統為生成和評估分配單獨角色,委員會功能則比較多個模型輸出,突出一致性、分歧和獨特見解,旨在提高AI研究輸出的準確性和深度。
Q2:多模型AI系統會給企業帶來哪些挑戰?
A:主要挑戰包括操作複雜性增加、成本和延遲提升、責任歸屬困難等。企業需要跟蹤更複雜的交互鏈,審計跟蹤更大,當出現問題時很難確定是生成器、審查員還是管理系統的問題。還可能存在判斷偏見風險。
Q3:企業如何更好地部署多模型AI系統?
A:專家建議企業應與CRM、HRM等內部數據系統集成,確保AI洞察反映公司獨特情況。需要重新思考治理框架,建立結構化評估機制,確保決策過程可追溯,並將持續監控和校準作為流程質量管理的基本組成部分。






