企業可受益低成本AI開源模型逐漸逼近閉源優勢
人工智慧因開發成本過高,故門檻也高,但DeepSeek出現後,有更多挑戰者加入市場。舊金山AI創業公司Deep Cogito最近推出Cogito v1全新開源大型語言模型(LLM)系列,基於Meta Llama 3.2微調,有混合推理力,快速回答問題,或像OpenAI的o系列和DeepSeek R1能「反思」。
Deep Cogito核心在獨特訓練法──蒸餾和增強(IDA),與傳統人類反饋強化學習(RLHF)或教師模型蒸餾不同,IDA分配更多計算資源產生解決方案,然後將推理過程蒸餾至模型參數,創建反饋循環。Deep Cogito CEO兼聯合創辦人Drishan Arora比喻為Google AlphaGo自我對弈,只不過改用於自然語言處理。
Deep Cogito首批模型系列有五種基本規模:30億、80億、140億、320億和700億參數。已在AI程序代碼共享網站Hugging Face、Ollama、Fireworks和Together AI應用程序編程接口(API)開放。遵循Llama條款,允許商業使用,第三方企業可用於付費產品,每月用戶數不超過7億,超過需向Meta取得付費許可。Deep Cogito幾個月內會發布更大模型:參數高達6,710億。
基準測試結果,Cogito模型通用知識、數學推理和多語言任務都表現優異。Cogito 3B(標準模式)在MMLU測試比LLaMA 3.2 3B高6.7個百分點(65.4%對58.7%),推理模式,Cogito 3B在MMLU得分72.6%,ARC得分84.2%,超過自身標準模式,展示基於IDA的反思效果。更大規模Cogito 8B(標準模式)在MMLU得分80.5%,比LLaMA 3.1 8B高12.8個百分點。
Cogito模型原生支持工具調用,是代理和API集成系統日益重視的功能。Cogito 3B支持四種工具調用(簡單、並行、多重和並行多重),LLaMA 3.2 3B不支持。Cogito 3B簡單工具調用得分為92.8%,多重工具調用超過91%。
Deep Cogito開源混合推理模型顯示開源商業許可的特性使企業能低成本部署高性能AI模型,無需負擔昂貴的專有模型訂閱費。對中小企業而言,降低AI應用門檻,更容易業務自動化和智能化。同時混合推理能力給企業更靈活AI應用場景,需要快速回應的客戶服務場景中,標準模式可以提供即時答案;而在涉及複雜問題解決或決策支持的場景中,推理模式能夠提供更深入的分析和更可靠的結果。企業可以根據不同業務需求,靈活切換模型的工作模式,提高整體效率和準確性。
工具調用原生支持也使企業開發更複雜AI時更方便。企業可將Cogito模型與系統和API集成,開發更強操作功能的AI助理或代理人,從查詢資訊到操作無縫過渡。客服AI不僅回答問題,還能直接查詢訂單系統、更新客戶資訊或觸發特定流程。對有技術力的企業,Deep Cogito蒸餾和增強(IDA)提供值得研究的方向。企業可嘗試用類似方法,根據特定範疇數據和任務優化基礎模型,開發更適合業務場景的專業AI系統。
Deep Cogito出現與技術路線反映AI界幾個關鍵趨勢。首先,開源LLM性能差距快速縮小,甚至某些方面超越封閉模型。趨勢可推動更多企業采開源AI解決方案,促進開源生態系統成熟。AI自我改善將成為下階段競爭焦點。Deep Cogito的IDA代表減少依賴人類監督,將來可能會看到更多類似自我優化出現,推動AI系統向更高層次自主性發展。
模型規模也繼續增長,但更重要的是訓練法和架構創新。Deep Cogito之後671B參數模型是開源界的里程碑,但真正價值在如何創新訓練法使大模型發揮更大效用。混合推理能力也將成為標準規格,將來AI系統能自主決定何時需深入思考,何時直接回應,在效率和準確性間取得平衡。
開源AI生態系統蓬勃發展代表AI成本持續下降,功能提升。現在是時候開始規劃如何將先進開源模型集成至業務流程,以取得競爭優勢。企業也應關注AI自我提升能力進度,為將來更強大自主AI系統做好準備。
(首圖來源:shutterstock)
#創業# #模型公司# #開放源代碼# #deep# #人工智慧#