宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

AI當CEO大賽:海外模型賺千萬,DeepSeek跑了3次全破產

2026年06月30日 首頁 » 熱門科技

CEO-Bench做了一個很有意思的測試:給AI大模型100萬美元初始資金,讓它運營一家模擬初創公司500天,看最後剩下多少錢。

AI當CEO大賽海外模型賺千萬DeepSeek跑了3次全破產

近日測試成績終於出爐,13個智能體參賽,結果相當扎心。

五個模型跑了3次,3次全破產——GrokAI當CEO大賽海外模型賺千萬DeepSeek跑了3次全破產 4.20平均只活了28天,DeepSeekAI當CEO大賽海外模型賺千萬DeepSeek跑了3次全破產 V4 Pro活了114天,Gemini 3 Flash和GLM 5.1也沒撐過160天,Claude Haiku 4.5也是3次全破產。

AI當CEO大賽海外模型賺千萬DeepSeek跑了3次全破產

再加上Kimi K2.6破產1次、GPT-5.5破產2次,整個測試里接近一半的運行以破產收場。

更尷尬的是,一個不涉及任何AI的規則基線,就是按固定邏輯執行決策的簡單程序,最終拿到了1576萬美元,贏了10個AI模型。

也就是說,你花大價錢調用的智能體,還不如幾條if-else規則管錢管得好。

AI當CEO大賽海外模型賺千萬DeepSeek跑了3次全破產

當然頭部模型確實厲害。Claude Fable 5最佳運行賺到4715萬美元,Claude Opus 4.8拿到2778萬,GPT-5.5拿到2130萬。但只有這三個的最佳成績超過了100萬初始資金,而且Claude Fable 5是唯一一個兩次運行都高於初始資金的模型,穩定性遠超其他。

GPT-5.5的策略很激進。3次運行里2次破產,但賺到2130萬的那次確實猛——它會根據市場變化反覆調整獲客、研發、定價,工具使用分布均勻,89%的研發預算精準投向客戶群定向改進。高風險高回報,賭對了就是第三名,賭錯了直接歸零。

Claude Opus 4.8的路子與GPT-5.5完全不同。它的最佳運行中途客戶數跌到0,靠控制成本硬撐到了2778萬。

AI當CEO大賽海外模型賺千萬DeepSeek跑了3次全破產

有意思的是AI操作頻率跟結果沒什麼關係。GLM 5.1平均每周操作51.5次,3次全破產。Claude Fable 5平均每周只操作15.4次,卻跑出了最高分。忙著折騰不如折騰對了。

頭部模型還有個別的模型做不到的事——它們會自己寫代碼輔助決策。Claude Opus 4.8在運行中寫代碼模擬不同場景的現金流,GPT-5.5寫代碼從談判數據里推斷客戶的價格偏好。這已經不是調參數了,是AI給自己造工具。

但整體來看,AI當CEO這件事目前還很不靠譜。多數模型連500天都活不過去,距離AI真的能掌舵一家公司,路還很長。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新