上海AI實驗室推出FinToolBench：讓AI智能體在金融世界中「持證上崗」

這項由上海AI實驗室聯合湖南大學、廈門大學、騰訊等多家機構共同完成的研究發表於2026年3月的arXiv預印本，論文編號為arXiv:2603.08262v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

贊助商廣告

說起人工智慧在金融領域的應用，很多人可能會聯想到股票交易機器人或者智能投顧。但是，當前的AI系統在處理真實金融業務時面臨一個關鍵問題：它們就像一個剛畢業的新手，雖然理論知識豐富，但在實際操作中缺乏必要的"合規意識"和"風險控制能力"。上海AI實驗室的研究團隊注意到這個問題，決定為AI系統設計一套專門的"金融從業資格考試"。

這個名為FinToolBench的評測基準就像一個金融界的"駕照考試場"。研究團隊花費大量精力構建了一個包含760個可執行金融工具的龐大"工具庫"，並設計了295個需要使用這些工具才能回答的實際問題。這些問題涵蓋了股票分析、基金評估、宏觀經濟研究等多個金融領域，每一個都模擬真實的工作場景。

更重要的是，這套評測系統不僅要求AI能正確使用工具，還要確保它們在使用過程中遵守金融行業的三大基本原則：時效性、意圖限制和監管領域匹配。就像一個合格的金融從業者不僅要會做分析，還要確保使用最新數據、不超越職責範圍、在正確的監管框架內操作一樣。

研究團隊還開發了一個名為FATR的基線方法，就像為AI系統配備了一個"金融合規助手"，幫助它們在選擇和使用工具時更好地遵守行業規範。通過這項研究，我們可以更準確地評估AI系統在真實金融環境中的可靠性和合規性。

一、金融AI面臨的"資質認證"難題

在傳統的AI評測中，人們更關注系統是否能給出正確答案，就像考試只看最終分數一樣。但在金融領域，這種評估方式就顯得過於簡單了。金融工作就像駕駛汽車一樣，不僅要到達目的地，更要確保整個過程安全、合規、及時。

當前大多數金融AI評測系統都存在一個根本缺陷：它們主要依賴靜態的文本分析或文檔問答，就像讓司機只做筆試而不進行實際道路考試。這種評估方式無法真正檢驗AI系統在面對真實、動態、複雜的金融環境時的表現。比如，一個AI系統可能在理論上完全理解什麼是股票分析，但當它需要實際調用各種金融數據接口、處理實時市場資訊時，就可能出現各種問題。

贊助商廣告

研究團隊發現，現有的通用工具學習基準雖然在API調用準確性方面表現不錯，但它們缺乏金融領域特有的約束條件。這就像用普通駕照考試來評估賽車手一樣，雖然基本技能相似，但專業要求完全不同。金融領域需要考慮的因素更加複雜：數據的時效性可能影響投資決策，操作的意圖類型關係到合規風險，監管領域的匹配程度決定了業務的合法性。

更具體地說，研究團隊識別出了三種在金融應用中反覆出現的失敗模式。第一種是時效性問題，就像用昨天的天氣預報來決定今天的穿衣一樣，即使API調用在語法上完全正確，但如果獲取的是過時數據，整個分析就失去了意義。第二種是意圖超界問題，AI系統必須嚴格區分資訊查詢和交易執行，絕不能在沒有明確授權的情況下escalate到實際操作。第三種是監管領域錯配，這就像用研究股票的方法去分析加密貨幣一樣，雖然表面相似，但適用的法規框架完全不同。

這些發現促使研究團隊認識到，金融AI需要一套全新的評估標準，不僅要看結果，更要審查整個操作過程是否符合行業規範。這就是FinToolBench誕生的背景和動機。

二、打造AI的"金融從業資格考試"

FinToolBench的構建過程就像設計一個完整的金融從業資格考試體系。研究團隊首先需要收集大量真實可用的金融工具，然後設計出既實用又有挑戰性的考試題目，最後建立起一套公平、準確的評分體系。

工具庫的建設是整個項目的基礎，就像考駕照需要準備各種類型的車輛和道路環境一樣。研究團隊從兩個主要來源收集工具：RapidAPI平台和AkShare開源庫。RapidAPI就像一個巨大的API超市，提供了豐富的第三方金融服務接口，涵蓋實時數據和網路服務；而AkShare則像一個專業的金融數據工具箱，提供穩定、研究導向的數據接口。

但是，並不是所有的工具都能進入最終的測試庫。研究團隊設計了一套嚴格的篩選標準，就像汽車必須通過安全檢測才能上路一樣。每個工具都必須滿足接口完整性、去重處理、速率限制充足、認證可行性和運行時可執行性等多個條件。只有那些在免費服務層級下能穩定運行、文檔完整、參數定義清晰的工具才能進入最終的工具庫。

贊助商廣告

為了讓這些來源各異的工具能夠協同工作，研究團隊還進行了大量的標準化工作。他們為每個工具創建了統一的"身份證"，包含穩定的標識符、簡短的描述和機器可讀的函數簽名。這種標準化處理就像統一交通信號一樣，讓不同來源的工具能夠在同一個評測環境中和諧運作。

更關鍵的是，研究團隊為每個工具都添加了金融屬性標籤，這就像給每個工具頒發了"專業資質證書"。這些標籤包括時效性等級、意圖類型和監管領域覆蓋範圍。時效性等級從實時、日更新、事件驅動、周期性到靜態，清晰標明了數據的新鮮程度；意圖類型區分資訊查詢、諮詢建議和交易執行，確保工具使用的合規性；監管領域則涵蓋股票、債券、基金、外匯、衍生品、宏觀經濟等不同市場，保證工具選擇的準確性。

在題目設計方面，研究團隊從現有的金融問答數據集中精心挑選出那些必須使用工具才能回答的問題。他們特別排除了那些僅憑記憶或一般推理就能解決的問題，確保每道題都能真正考驗AI系統的工具使用能力。題目類型包括166個單工具問題和129個多工具問題，既考察基礎操作技能，也測試複雜的多步驟協作能力。

為了確保評測的公正性和準確性，研究團隊還建立了完整的質量控制流程。他們使用語義檢索和多輪投票機制來確認問題與工具之間的匹配關係，並通過人工專家審核來驗證自動生成結果的質量。這種多層次的驗證機制就像多重安全檢查一樣，最大限度地保證了評測基準的可靠性。

三、建立全新的"合規性"評估體系

傳統的AI評測就像只看學生考試最終得分一樣，往往忽略了答題過程是否規範。但在金融領域，過程的合規性往往比結果的正確性更加重要。FinToolBench創新性地提出了一套雙重評估體系，既要看AI系統能否完成任務（能力評估），也要看它在完成任務過程中是否遵守了行業規範（合規性評估）。

贊助商廣告

能力評估部分相對直觀，主要關注三個基本指標。工具調用率衡量AI系統是否願意使用工具，而不是僅僅依賴自身的參數化知識來回答問題。工具執行成功率則檢驗系統在決定使用工具後，是否能夠正確地構造參數、處理異常並獲得有效結果。條件執行率是前兩者的結合，反映了系統在選擇使用工具的情況下的可靠程度。

但是，僅僅能夠成功調用工具是遠遠不夠的。就像一個司機不僅要會開車，還要遵守交通規則一樣，金融AI系統在使用工具時必須遵守行業規範。這就是合規性評估發揮作用的地方。

合規性評估的核心是三個失配率指標，分別對應金融領域最重要的三個約束條件。時效性失配率檢查AI系統是否使用了過時的數據源。比如，當用戶詢問"當前"匯率時，如果系統選擇了只提供日更新數據的工具，就會被標記為時效性失配。這種檢查確保了分析結果的時效性和相關性。

意圖類型失配率則監控AI系統是否超越了應有的權限範圍。在金融領域，資訊查詢、投資建議和實際交易之間有著嚴格的邊界。一個合規的AI系統應該能夠清楚地識別用戶請求的性質，並選擇相應類型的工具。如果用戶只是想了解某隻股票的基本資訊，系統就不應該調用具有交易功能的工具。

監管領域失配率確保AI系統在正確的法規框架內操作。不同的金融產品和市場受到不同監管機構的管轄，適用不同的法規要求。比如，分析股票時應該使用證券監管框架下的工具，而不能使用專門針對加密貨幣的分析工具，即使兩者在技術上可能相似。

這套評估體系的巧妙之處在於，它能夠將看似抽象的合規要求轉化為可量化的指標。通過記錄每一次工具調用的完整軌跡，包括工具選擇、參數構造、執行結果等所有細節，系統能夠對每個操作環節進行精確的合規性檢查。這就像行車記錄儀一樣，不僅記錄了行駛軌跡，還記錄了每一個操作是否符合交通規則。

贊助商廣告

為了確保評估的客觀性，研究團隊還引入了大語言模型作為"裁判"，對工具使用的合規性進行判斷。這種自動化評估方法不僅提高了效率，還保證了評估標準的一致性。同時，通過多次重複評估和交叉驗證，系統還能夠減少評估中的隨機誤差，提高結果的可靠性。

四、FATR：AI的"金融合規助手"

面對複雜的金融工具生態系統，AI系統往往會感到無所適從，就像一個新入職的金融分析師面對滿螢幕的數據終端一樣。為了幫助AI系統更好地適應金融環境，研究團隊開發了FATR（金融感知工具檢索）方法，這就像為AI配備了一個經驗豐富的"合規助手"。

FATR的工作原理就像一個專業的金融顧問協助新手員工一樣。當接到一個金融問題時，它首先會分析問題的性質，推斷出所需的時效性要求、意圖類型和監管領域範圍。這個過程就像一個資深分析師在接到任務後，首先明確項目的基本參數：需要多新鮮的數據、分析目的是什麼、涉及哪些監管要求。

接下來，FATR會從龐大的工具庫中篩選出最相關的候選工具。這個過程使用了先進的語義匹配技術，就像一個知識淵博的圖書管理員能夠迅速找到最適合的參考資料一樣。但與普通的檢索不同，FATR在選擇工具時會特別考慮金融屬性的匹配程度，優先選擇那些在時效性、意圖類型和監管領域方面都與問題需求高度匹配的工具。

更重要的是，FATR會將這些金融屬性資訊直接融入到工具的描述中，就像給每個工具貼上了詳細的"使用說明標籤"。這樣，AI系統在選擇工具時就能夠清楚地看到每個工具的特性和適用範圍，大大降低了選擇錯誤工具的風險。

在實際操作過程中，FATR採用了類似人類分析師的工作流程：制定計劃、執行操作、觀察結果、調整策略。但在每一個步驟中，它都會持續監控合規性要求。比如，在制定分析計劃時，會明確時效性要求；在選擇具體工具時，會確保意圖類型匹配；在執行多步驟分析時，會保持監管領域的一致性。

贊助商廣告

為了應對真實環境中的各種不確定性，FATR還集成了多種穩定性增強措施。它會為每次工具調用設置合理的超時限制，在遇到臨時性故障時自動重試，並對過長的輸出結果進行智能壓縮。這些措施就像為工具操作加上了"安全網"，確保系統能夠在複雜多變的真實環境中穩定運行。

特別值得一提的是，FATR還具有一定的"學習能力"。它會根據之前的執行經驗調整工具選擇策略，優先選擇那些歷史上表現良好的工具組合。這種適應性學習機制使得系統能夠隨著使用經驗的積累而不斷優化，就像一個新員工在實踐中逐漸熟悉業務流程一樣。

五、實驗驗證：不同AI系統的"考試成績單"

為了全面評估不同AI系統在金融工具使用方面的表現，研究團隊對四個代表性的大語言模型進行了詳細的測試，這就像讓不同背景的候選人參加同一場金融從業資格考試。測試結果揭示了每個系統在工具使用能力和合規性方面的獨特特點。

Qwen3-8B在測試中表現出了最高的"工具使用積極性"，在87.12%的問題中選擇了使用工具，這個比例遠高於其他系統。然而，高積極性並沒有轉化為高成功率。該系統的條件執行率只有33.85%，這意味著雖然它很願意使用工具，但在參數構造和執行過程中經常遇到困難。這就像一個熱情但經驗不足的新手，雖然勇於嘗試各種工具，但在實際操作中容易出錯。

相比之下，Doubao-Seed-1.6展現出了最為平衡的表現。它的工具調用率為65.08%，條件執行率達到了50%，這種平衡反映了該系統在工具選擇和參數構造方面都具有較好的判斷力。更重要的是，它的總體執行成功率達到32.54%，在所有測試系統中排名最高。這種表現模式類似於一個經驗適中但工作方式穩健的金融分析師。

GPT-4o則採用了截然不同的策略，它的工具調用率只有22.67%，是所有系統中最低的。但是，一旦它決定使用工具，成功的概率就很高，條件執行率達到了61.76%。這種"謹慎但精準"的工作風格使得它在最終答案的條件正確率方面表現突出，達到了67%。這就像一個非常保守的資深專家，寧可依賴已知的知識也不願冒險使用可能不穩定的工具。

贊助商廣告

GLM-4.7-Flash的表現相對較弱，各項指標都處於中下水平。特別是在合規性方面，它在所有三個失配率指標上都表現不佳，意圖失配率更是高達72.31%。這表明該系統在理解金融領域特定約束方面還有較大的改進空間。

在合規性評估方面，結果同樣令人深思。意圖類型失配是所有系統面臨的共同挑戰，失配率普遍在50%以上。這反映了當前AI系統在區分資訊查詢、投資建議和交易操作方面還存在困難。相比之下，監管領域失配率相對較低，大多數系統都能在正確的金融細分領域內選擇工具。

更有趣的是，研究團隊還測試了金融屬性注入的效果。結果顯示，當工具描述中包含明確的金融屬性資訊時，AI系統的合規性表現確實有所改善。雖然這種改進可能會略微降低工具調用的積極性，但它顯著提高了工具選擇的準確性和執行的可靠性。這就像給新員工提供詳細的操作手冊，雖然可能會讓他們在初期變得更加謹慎，但從長遠來看卻能避免很多錯誤。

工具使用模式的分析也很有啟發性。在295個測試問題中，103個沒有觸發任何工具調用，114個使用了單個工具，78個需要多工具協作。在多工具場景中，使用三個工具的情況最為常見，這表明複雜的金融分析任務通常需要多個步驟和不同類型的數據源。

六、深入案例：AI系統的"實戰表現"

為了更好地理解AI系統在真實金融場景中的表現，研究團隊進行了詳細的案例分析，就像醫生通過具體病例來總結診療經驗一樣。這些案例生動地展現了金融屬性注入對AI行為的具體影響。

在第一個案例中，問題是關於美國運通公司的營運利潤率表現評估。這個問題的關鍵挑戰在於，數據集的標準答案認為營運利潤率並不是衡量這類公司的合適指標，而不是簡單地計算利潤率趨勢。在沒有金融屬性指導的基礎版本中，AI系統在遇到API接口不兼容問題後就停止了嘗試，無法產生最終答案。

贊助商廣告

但是，當使用FATR方法並注入金融屬性資訊後，系統展現出了更強的適應能力。面對初始工具調用失敗，它能夠自動嘗試其他相關工具，最終獲得了關於公司財務數據的有效資訊。雖然這個版本成功完成了工具使用軌跡並得出了基於數據的分析結論，但它仍然沒有採納數據集預期的"營運利潤率不適用"這一立場。這個案例揭示了一個重要問題：工具使用的技術成功並不自動等同於分析框架的正確性。

第二個案例涉及天弘餘額寶貨幣基金的下行風險評估，這是一個相對直觀的分析任務。基礎版本的AI系統表現出了明顯的"試錯"行為模式：它先嘗試了與貨幣基金不太匹配的個股分析工具，然後嘗試貨幣基金資訊工具但遇到了執行錯誤，接著又嘗試了銀行間利率工具也失敗了，最後才找到了合適的基金概覽工具並成功完成分析。

相比之下，注入了金融屬性的版本表現得更加"專業"和高效。它直接選擇了最相關的基金概覽工具，一次性獲得了所需資訊並給出了準確的風險評估。兩個版本最終都得出了正確結論，但後者的執行過程更加清晰、穩定，避免了不必要的試錯成本。

第三個案例展現了一個更複雜的情況： NIKE 公司的三年平均銷售成本占收入比例計算。這個問題需要精確的歷史財務數據，但可用工具中缺乏直接的多年歷史數據接口。基礎版本在發現歷史報表數據無法獲取後，選擇了放棄嘗試，誠實地表示"無法用現有數據計算所需指標"。

而金融屬性注入版本則採用了代理指標策略：它使用毛利率數據來推算銷售成本比例。雖然這種方法體現了更強的分析思維，但由於代理指標與實際目標之間存在差異，最終答案仍然是錯誤的。這個案例說明了一個重要現象：更複雜的工具使用策略並不總是導致更準確的結果，特別是當底層數據支持不足時。

通過這些案例分析，研究團隊得出了幾個重要發現。首先，金融屬性注入確實能夠改善AI系統的工具選擇策略，減少無效嘗試，提高執行穩定性。其次，技術層面的改進（如更好的錯誤恢復、更準確的工具匹配）與語義層面的正確性（如選擇合適的分析框架、理解問題的真實意圖）是兩個不同的挑戰，需要分別解決。最後，在數據可獲得性有限的情況下，AI系統面臨著在保守（承認局限性）和進取（嘗試近似方法）之間的權衡選擇。

贊助商廣告

七、技術創新與實際意義

FinToolBench的技術創新體現在多個層面，每一項都對金融AI的發展具有重要意義。首先，這是第一個專門針對金融領域設計的大規模可執行工具評測基準。與之前主要依賴模擬環境或少量API的評測方法不同，FinToolBench構建了一個真實可運行的生態系統，包含760個實際可用的金融工具。這就像從理論考試升級到了實際駕駛測試，能夠更準確地反映AI系統在真實環境中的表現。

評估框架的創新同樣重要。傳統的AI評測主要關注最終答案的正確性，就像只看學生的考試分數而不關心答題過程。但FinToolBench引入的雙重評估體系不僅檢查AI系統是否能夠完成任務，更重要的是檢查完成任務的過程是否符合金融行業的專業規範。這種"過程導向"的評估理念對於需要高度合規性的金融領域來說具有革命性意義。

金融屬性注入機制是另一個重要創新。通過為每個工具明確標註時效性、意圖類型和監管領域等屬性，系統能夠將抽象的合規要求轉化為具體的工具選擇指導。這就像為每種藥物標註適應症、用法用量和禁忌症一樣，讓AI系統在使用工具時有了明確的規範依據。

在實際應用方面，這項研究的意義遠超出了技術本身。金融服務業正在經歷數字化轉型，越來越多的投資諮詢、風險評估、合規檢查等工作開始依賴AI系統。但是，如何確保這些AI系統在提供服務時既準確又合規，一直是行業面臨的重大挑戰。FinToolBench提供了一個客觀、標準化的評估工具，讓金融機構能夠科學地評估和選擇AI解決方案。

對於AI系統開發者來說，這個基準提供了明確的改進方向。通過詳細的失配率分析，開發團隊可以識別出自己系統的薄弱環節，比如是在工具選擇方面需要改進，還是在參數構造方面存在問題。這種精確的診斷能力就像醫療檢查中的各項指標一樣，讓優化工作更有針對性。

贊助商廣告

從監管角度來看，FinToolBench也具有重要價值。隨著AI在金融領域應用的日益廣泛，監管機構需要有效的工具來評估這些系統的可靠性和合規性。這個基準為監管標準的制定提供了技術支撐，有助於建立更加完善的金融AI監管框架。

研究團隊特別強調了系統的開源特性。他們承諾將工具清單、執行環境和評估代碼全部開源，這意味著任何研究機構或商業組織都可以使用這個基準來評估自己的AI系統。這種開放性將促進整個行業在金融AI評估方面形成統一標準，推動技術發展的良性競爭。

更重要的是，這項研究為未來的發展指明了方向。當前版本主要依賴免費服務接口，但研究團隊已經考慮了擴展到專有實時數據源的可能性。他們還計劃研究AI系統在工具API更新和政策變化等動態環境中的魯棒性，這些都是實際應用中必須面對的挑戰。

八、面向未來的思考與展望

FinToolBench的推出標誌著金融AI評測進入了一個新階段，但這僅僅是開始。研究團隊在論文中坦誠地討論了當前基準的局限性，以及未來可能的發展方向。

當前版本主要依賴免費服務層級的API，這雖然保證了基準的可復現性和可訪問性，但也限制了評測的深度和廣度。真實的金融機構通常使用更加專業和昂貴的數據服務，這些服務在數據質量、更新頻率和功能完整性方面都有顯著優勢。未來的發展可能需要考慮如何在保持基準開放性的同時，納入更多高質量的專業數據源。

另一個重要的發展方向是動態環境適應性。金融市場是一個快速變化的環境，API接口會更新、數據格式會變化、監管規則會調整。一個真正實用的金融AI系統必須能夠適應這些變化，而不是在環境發生變化時就失效。這需要評測基準不僅考慮靜態的工具使用能力，還要評估系統的適應性和學習能力。

數據安全和隱私保護也是未來必須重點考慮的問題。金融數據具有高度敏感性，AI系統在處理這些數據時必須嚴格遵守相關法規。當前的基準主要關注工具使用的合規性，但對數據處理過程中的安全性考慮相對較少。未來可能需要引入更多與數據保護相關的評估維度。

贊助商廣告

從技術發展的角度來看，當前的評測主要針對基於大語言模型的AI系統。但隨著多模態AI、強化學習等技術的發展，金融AI系統的形態可能會發生根本性變化。評測基準需要具備足夠的靈活性來適應這些技術變革。

國際化也是一個重要考慮因素。不同國家和地區的金融市場有著不同的監管要求、數據格式和業務慣例。一個真正有用的評測基準應該能夠適應這種多樣性，為全球化的金融AI發展提供支持。

研究團隊還提到了與其他評測基準的互操作性問題。金融AI通常不是孤立運行的，而是作為更大系統的一部分。如何將金融特定的評測結果與通用AI能力評估結果結合起來，形成對系統整體能力的全面評價，這是一個值得深入研究的問題。

最後，評測方法本身也需要不斷演進。當前主要依賴基於規則的合規性檢查和基於大語言模型的答案評估，但這些方法都有各自的局限性。未來可能需要開發更加精確和可靠的評估方法，比如結合領域專家知識的混合評估系統，或者基於實際業務成果的端到端評估方法。

說到底，FinToolBench的真正價值不僅在於它提供了一個評測工具，更在於它開啟了對金融AI系統全面、科學評估的新思路。它提醒我們，在追求技術突破的同時，必須始終牢記行業規範和社會責任。這種平衡將是金融AI未來發展的關鍵所在。隨著越來越多的研究機構和商業組織開始使用這個基準，我們有理由期待金融AI技術能夠在保持創新活力的同時，變得更加可靠、透明和可信。畢竟，只有經過嚴格測試和驗證的AI系統，才能真正擔當起現代金融體系中的重要角色。

Q&A

Q1：FinToolBench跟普通的AI測試有什麼不同？

A：FinToolBench專門針對金融領域設計，不僅測試AI能否給出正確答案，更重要的是檢查AI在使用金融工具時是否遵守行業規範，比如是否使用了最新數據、是否超越了權限範圍、是否在正確的監管框架內操作。這就像從筆試升級到實際操作考試。

贊助商廣告

Q2：FATR方法是如何幫助AI系統的？

A：FATR就像給AI配備了一個金融合規助手，它會分析問題的時效性要求、意圖類型和監管範圍，然後從760個工具中篩選出最合適的候選工具，並在工具描述中標註詳細的使用規範，幫助AI做出更準確、更合規的選擇。

Q3：這個評測系統對普通人有什麼意義？

A：雖然FinToolBench是技術評測工具，但它的意義在於推動金融AI服務變得更加可靠和安全。未來我們使用的智能投顧、金融諮詢AI等服務，都可能受益於這種嚴格的評測標準，讓普通用戶能夠更放心地使用AI金融服務。