2013 年的科幻電影《Her》中,作業系統 Samantha(薩曼莎)讓觀眾首次具象化了理想的 AI 存在方式:不等你說完即可開口、能感知語氣遲疑,且始終「在場」,而非被動等待喚醒。
十三年後,由 OpenAI 前 CTO Mira Murati 創立的 Thinking Machines Lab 發布了一篇研究預覽,其構建的交互模型在底層追求上,與 Samantha 的邏輯高度契合。
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with people the same way. We share our approach, early results, and a quick look at our model in action. https://thinkingmachines.ai/blog/interaction-models
這篇題為《交互模型:人機協作的可擴展方案》的部落格,全篇反覆強調的核心便是一個詞:「presence」——持續在場。
部落格鏈接地址:https://thinkingmachines.ai/blog/interaction-models/
頗有意思的是,2024 年正是 Mira Murati 在 OpenAI 主持發布了 GPT-4o 的高級語音模式,讓人機交互開始更接近人與人的自然交流。

兩年後,她帶著出走的團隊另起爐灶,卻又把這件事從頭做了一遍。
WAIT WAIT WAIT. is anyone gonna talk about the fact how Thinking Machines demo looks insanely similar to GPT 4o demo from 2 YEARS AGO?
留言區的吐槽也是一條比一條犀利。
rebranding as thinking machines just to ship a gpt-4o clone is the ultimate 2026 tech move. we’re officially in the 're-skinning 2024' era and nobody’s even trying to hide the wrappers anymore
人類已被移出 AI 協作群聊
文章開篇指出,結合 METR 在 2025 年的研究報告,主流 AI 公司普遍傾向將「模型自主完成長任務」作為最重要的能力指標,導致目前的交互界面幾乎沒給人類留出持續參與的空間。
但在實際工作中,需求極少能在最初就交代得完美無缺。高質量產出往往需要人持續介入與反覆調整,而現有的「回合制」機制恰恰缺乏這樣的通道。
語言學者 Clark 和 Brennan 在 1991 年的研究表明:高效溝通依賴共在、同時性和並發性。雙方需共處同一情境,同步接收和表達資訊;同時,如 Walter Ong 在 1982 年關於「口語稍縱即逝性」的研究所示,對話的本質在於高頻參與。結合哈耶克 1945 年的理論,真正有價值的知識正存在於這類即時的細節傳遞中。
現在的模型工作時,用戶輸入,AI 等待;AI 輸出時,則對用戶的即時反應一無所知。Thinking Machines 將此比喻為:面對緊迫分歧不去當面溝通,而是靠發郵件來回拉扯。
目前的實時語音市場存在兩條存在局限的路線:大多數主流商業系統是靠在模型外接入語音活動檢測(VAD)等組件拼接出的「偽實時」。
這種外掛組件的管理方式局限性明顯:模型無法主動打斷對話,無法對螢幕報錯等視覺變化作即時反應,更難以勝任「邊聽邊同傳」這類高頻並發任務。 而另一方面,市場上雖然也出現了 Moshi、PersonaPlex 等無需 VAD 的原生全雙工系統,但它們多為較小規模的模型,為了低延遲在綜合智能水平上做出了妥協。
Thinking Machines 認同強化學習學者 Richard Sutton 的觀點:依賴人工設計組件的系統最終會被通用學習趕超。交互能力必須成為模型原生的一部分。
為此,他們參考了業界在全雙工語音交互與異步智能體上的探索(如 Seeduplex、Qwen-omni、MoshiRAG 等),從頭訓練了原生支持實時交互的系統。該系統由感知時間的「交互模型」(前台)和異步運行的「後台模型」(負責深層推理)協同工作。

基於時間對齊的微輪次分析 / 微輪次機制:模型以 200 毫秒為處理單元,持續交替處理輸入與輸出。用戶的沉默、搶話均作為真實資訊保留。

打破人為輪次邊界後,模型能隱式追蹤用戶是在思考、讓步、自我糾正還是邀請回應,無需獨立的對話管理模組。它不僅能同步說話、中途插話,甚至能在邊聽邊看的同時,並行調用工具、搜索網頁或生成 UI 界面。
在模態處理上,他們省去了獨立的大型編碼器,音影片經輕量處理後直接與 Transformer 主體聯合訓練。同時,為滿足高頻處理要求,團隊實現了「流式會話」機制並優化了底層算力與通信,避免反覆重分配記憶體,確保了低延遲的穩定運行。

當遇到複雜任務時,前台會把完整上下文拋給後台,後台將結果流式返回,前台再伺機自然地融入對話,在保證實時響應的同時兼顧深度推理。針對新衍生的安全挑戰,模型也進行了拒絕對話的擬真訓練與防越獄的魯棒性測試。
一份讓主流模型集體關注的成績單
測試中,這款名為 TML-Interaction-Small(活躍參數 12B)的模型表現亮眼。
在評估打斷、背景音干擾的 FD-bench v1.5 基準中,TML 獲 77.8 分,遠超 GPT Realtime-2.0(46.8 分)和 Gemini(54.3 分),輪次切換延遲僅 0.40 秒。在需深度推理的 FD-bench v3 中,其響應質量/Pass@1(82.8/68.0)也穩壓競品高延遲版本。
在其他綜合測試中,TML 同樣展現了極強的平衡性:QIVD 音影片問答(54.0 分)、BigBench Audio(75.7/96.5 分)以及 IFEval 指令遵循(82.1/89.7 分),並在 Harmbench 保持了 99.0% 的安全拒絕率。雖然在部分純智力單項上略微落後於 Qwen 3.5 Omni 或 GPT-2.0 極高延遲版,但它是唯一在響應速度與智能水平上實現雙優的模型。

為了更精準地衡量原生交互能力,Thinking Machines 自建了多項評測。
對比學術界現有的 StreamBridge、AURA 等文本輸出原型,TML 實現了真正的語音並發輸出。在考察主動發言的 TimeSpeak(得分 64.7)、同步糾錯的 CueSpeak(得分 81.7)、持續視覺追蹤的 RepCount-A(得分 35.4)以及看影片搶答的 ProactiveVideoQA 等單項測試中,TML 均取得有效成績,而對比的主流模型在這些場景下幾乎全部得零分或沉默以對。

當然,這套架構目前也有局限:長會話的上下文積累難以管理,且流式音影片高度依賴網路穩定性。此外,該架構尚未擴展至更大參數量的版本,計劃於今年晚些時候發布。
和 AI 說話,越來越像在和人說話
參與這項工作的研究員 Neal Wu 概括了他們的初衷:「如果和 AI 協作不再是對著聊天框輸入,而更像在和另一個人說話,會怎樣?」原生支持交互的模型,就是他們給出的初步嘗試。
Thinking Machines CTO Soumith Chintala 則將整體路線圖分為三步:第一步,提升人與 AI 之間的資訊頻寬;第二步,拉高人類加 AI 的智能上限;第三步,幫助人類在未來的體系中繼續發揮核心作用。
Thinky's secret plan: 1: Increase HumanAI bandwidth 2: Raise ceiling of human+AI intelligence 3: Help humans continue as main-characters in the new world We are at Step 1. Interaction Models are great real-time collaborative tools for humans. Here's a preview:
在許多 AI 研發方向傾向於讓模型更自主、減少人類介入的當下,Thinking Machines 選擇了一條不同的路徑:讓人類的介入變得更流暢,讓溝通頻寬本身成為一種基礎設施。
翁荔更是在推文中提到:「寫了 137 頁日誌,產出了 12 個版本。結果發現,人與人之間的協作,對於改善人與 AI 之間的協作至關重要。」這或許意味著,要研發出一個能理解人類溝通節奏的模型,研究者首先需要深刻體會人類溝通的本質。
In the past few months, we had a lot of fun (and stress 😅) to produce 12 versions (+ many subversions) and 137 pages in our training run log book. Turns out human-human collaboration is important to improving human-AI collaboration. 😊
不過,一個持續在場、能即時感知情緒和狀態的 AI,與傳統的工具型 AI 帶來的心理感受是截然不同的。當模型在每次交互中的在場感越來越強,人們對它的認知和依賴會發生怎樣的改變?
這些觸及靈魂的拷問,論文並沒有作答,只是留下了一個關於「實時對齊與安全」的開放性方向。但可以預見的是,當科幻電影裡的情節真正降臨桌面,AI 變成一個一個始終陪伴左右的「存在」時,我們真正需要對齊的,或許不只是模型,更是人類自己在新世界中的位置。






