微軟為Copilot研究智能體增加多模型AI功能，提升準確性

微軟正在為其Microsoft 365 Copilot"研究"智能體擴展新的多模型功能，旨在提高AI生成研究輸出的準確性和深度。

贊助商廣告

此次更新引入了"批評"系統，該系統為生成和評估分配單獨的角色，同時還有一個"委員會"功能，可以比較多個模型的輸出，並突出顯示一致性、分歧點和獨特見解。

使用DRACO基準測試的內部測試顯示，配備批評系統的研究智能體在綜合評分上超越了之前報告的系統13.8%（7.0分）。

"我們看到分析廣度和深度方面的改善最大（+3.33），其次是呈現質量（+3.04）和事實準確性（+2.58），"微軟在部落格文章中表示。"所有維度都顯示出統計學意義上的顯著改善（配對t檢驗，p

委員會功能並行運行多個模型以生成獨立報告，通過判斷系統綜合關鍵差異和見解，幫助IT團隊比較不同的解讀。

"簡單來說，這就像擁有一個聰明的專業人員加上一個嚴格的審查員，"Pareekh諮詢公司CEO Pareekh Jain說道。"但這仍然是漸進式的，不是魔法。它減少了錯誤但不能完全消除錯誤。"

其他專家指出，僅僅模型協調可能不足以推動有意義的企業成果。

"多模型系統在與CRM和HRM系統等內部企業數據集成時才能發揮其全部潛力，"Counterpoint Research研究副總裁Neil Shah說道。"這確保了AI驅動的洞察在上下文中具有細緻入微的特點，反映公司獨特的市場地位、客戶特徵和決策者的具體要求。"

基準測試的局限性與現實考量

微軟的DRACO基準測試結果看起來很強，但企業應該謹慎對待它們。

"將其視為最佳情況測試；它顯示AI模型可以相互檢查並發現錯誤，但真實的公司數據要複雜得多，包含衝突資訊和過時文檔，"Jain說道。"還存在判斷偏見的風險；如果兩個AI相似，審查員可能會錯過相同的錯誤。雖然基準測試衡量邏輯，但它們無法捕捉真正的商業價值。"

向多模型系統的轉變為企業IT團隊引入了新的操作複雜性層面。系統更強大，但也更難管理。

贊助商廣告

組織現在必須跟蹤包括初始草稿、批評和最終輸出的交互鏈，而不是單一的輸入輸出流。

"這創建了更大的審計跟蹤，安全和合規團隊必須審查以了解決策是如何制定的，"Jain補充道。"它還增加了成本和延遲，因為一個問題可以觸發許多模型調用。另一個挑戰是責任歸屬。如果出現問題，很難知道哪個部分失敗了，比如生成器、審查員還是管理它們的系統。"

分析師表示，這將要求企業重新思考圍繞AI部署的治理框架。

"企業必須優先考慮對模型到輸出選擇過程的治理，以及如何混合或選擇多個響應的細化，"Shah說道。"這種持續監控和校準將成為流程質量管理的基本組成部分。"Shah補充說，企業還需要結構化機制來評估輸出及其現實影響，確保整個決策過程的可追溯性，並改善多模型系統隨時間的管理方式。

Q&A

Q1：微軟Copilot研究智能體的多模型功能是什麼？

A：這是微軟為Microsoft 365 Copilot"研究"智能體新增的功能，包括"批評"系統和"委員會"功能。批評系統為生成和評估分配單獨角色，委員會功能則比較多個模型輸出，突出一致性、分歧和獨特見解，旨在提高AI研究輸出的準確性和深度。

Q2：多模型AI系統會給企業帶來哪些挑戰？

A：主要挑戰包括操作複雜性增加、成本和延遲提升、責任歸屬困難等。企業需要跟蹤更複雜的交互鏈，審計跟蹤更大，當出現問題時很難確定是生成器、審查員還是管理系統的問題。還可能存在判斷偏見風險。

Q3：企業如何更好地部署多模型AI系統？

A：專家建議企業應與CRM、HRM等內部數據系統集成，確保AI洞察反映公司獨特情況。需要重新思考治理框架，建立結構化評估機制，確保決策過程可追溯，並將持續監控和校準作為流程質量管理的基本組成部分。