
不知道大家平時有沒有這種經歷。
每次遇到點急事,打給各大公司的智能客服,電話那頭永遠是那個字正腔圓但毫無感情的聲音:「查詢服務請按 1,人工服務請按 0……」接著就是漫長的音樂,以及那句讓人抓狂的「對不起,我沒聽懂,請再說一遍」。
Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice agents. Voice agents are now real-time collaborators that can listen, reason, and solve complex problems as conversations unfold. Now available in the API alongside streaming models GPT-Realtime-Translate and GPT-Realtime-Whisper — a new set of audio capabilities for the next generation of voice interfaces.
但就在剛剛,OpenAI 發布了 Realtime API 實時語音模型的全家桶。看了看他們的演示,這回,他們是真心想讓機器說「人話」,辦「人事」。
as a side note, young people seem to prefer to interact with AI via voice, and old people, and people in the middle like to type. i wonder if this will change.
省流版如下:
- GPT-Realtime-2:構建可用於生產環境的語音智能體。它們能夠進行更深入的思考、執行操作、處理中斷,並讓對話持續自然地進行。
- GPT-Realtime-Translate:支持 70 多種輸入語言和 13 種輸出語言的實時翻譯,打破語言障礙,幫助人們更自然地交流。
- GPT-Realtime-Whisper:實時轉錄音頻流,生成字幕和注釋。
終於,AI 學會了「稍等片刻」
如果說擬人化是面子,那麼底層的推理能力就是里子。
這次的主力選手非 GPT-Realtime-2 莫屬,基準測試結果顯示,GPT-Realtime-2 在 Big Bench Audio(音頻智能測試)上比上一代高了 15.2%,在 Audio MultiChallenge(多輪對話指令跟隨測試)上高了 13.8%。Zillow 內部用最難的對抗性測試跑了一遍,調用成功率從 69% 跳到了 95%,提升了 26 個百分點。

以前的語音助手,腦迴路其實很直。你說「放首歌」,它放一首歌;你說「關燈」,它把燈關了。如果你一口氣給它布置三個任務,順便還改了兩次主意,它八成就當場罷工了。
但 GPT-Realtime-2 不一樣之處在於,OpenAI 直接把 GPT-5 級別的推理能力塞進了這個語音模型里,給我一種 GPT-5「說人話」的即視感。
舉個很實在的例子,假設你正在開車,隨口吩咐它:「幫我找個離地鐵站近的房子,租金別太貴,避開那些主幹道,如果可以的話,周六下午幫我約個中介看房。」
Been having too much fun with GPT-Realtime-2 in the API, not just for fun personal things, but for really elegant complex voice interactions in @chatprd Why type when you can talk?
這就不是簡單的語音識別了,這需要它聽懂你的各種限制條件,去地圖上篩位置,去對比價格,最後還要去匹配中介的時間表。為了干好這種複雜的活,OpenAI 給它點亮了兩個非常特別的技能樹。
第一個技能,叫「Parallel tool calls(並行工具調用)」。它現在可以多線程操作,一邊跟你講著話,腦子裡一邊同時調動地圖、日曆、租房軟體好幾個工具。你可以聽到它在電話里嘀咕:「正在看您的日程表……」「正在查找附近的房源……」這就很像你給一個得力助手打電話,你能聽見他在電話那頭噼里啪啦敲鍵盤查資料的聲音。
Here’s OpenAI’s latest realtime voice model, GPT-Realtime-2, wired up to OpenClaw. It’s amazing. Realtime continuous chat and fast OpenClaw agent action on real tasks. Truly excellent.
這就引出了第二個,也是我覺得最有人情味的一個更新——「Preambles(開場白)」。
人在思考或者處理複雜事情的時候,是做不到秒回的,我們通常會說「呃,讓我想想」或者「稍等啊,我找找」。現在 AI 也學會這一招了。當它在後台瘋狂拉取數據的時候,它會非常自然地對你說:「好的,沒問題,給我一小會兒時間我來核實一下。」
這種看似「廢話」的設計,反而最大程度緩解了我們等待時的焦慮感。
有意思的是,開發者現在能控制它的推理強度(從極簡到極高:minimal、low、 medium、high、xhigh)。你要是問它今天下不下雨,它就用最快速度回你;要是你丟給它一個「幫我盤一盤開個咖啡店會不會虧本」的商業大題,它就會拉滿算力跟你慢慢分析。
把「同聲傳譯」變成白菜價?
除了 GPT-Realtime-2,這次還有個非常搶眼的配角:GPT-Realtime-Translate(實時翻譯)。
我們平時用的翻譯軟體,大部分是「回合制」的。你按住說話,鬆手,等幾秒,機器再字正腔圓地播報出來。如果是旅遊問個路還行,要是真拿來開跨國會議,那種互相大眼瞪小眼的停頓,尷尬得能讓人用腳趾摳出個三室一廳。
但這個新模型,主打就是一個「實時翻譯」。
它支持 70 多種語言輸入,能做到你在那邊滔滔不絕,它在另一頭幾乎同步地輸出翻譯結果。更厲害的是它對各種「口音」的包容度。印度有家叫 BolnaAI 的公司拿印地語的濃重口音去測它,結果發現這模型不僅沒被繞暈,準確率還比其他同類產品高了一大截。
The new live translator model is really outstanding - it can translate synchronously without getting confused. This video is just my screen recording with no editing. I built a little chrome extension that can hook into a YouTube video and translate it automatically live to lots of different languages - I love this. Link to github below, you'll need to add your own API key to it.
以後大家在網上看國外大神沒有字幕的實操教學,或者聽某些沒有同傳的海外發布會,直接把這個插件一開,它就能順著原影片的節奏,穩穩噹噹把你熟悉的母語送到你耳朵里。
除此之外,加上剛剛發布的 GPT-Realtime-Whisper(極低延遲的語音轉文字)功能,以後遇到開會的場景,領導在說話,你這邊的螢幕上就已經實時把大餅轉化成了結構清晰的會議紀要。
至於定價方面,GPT-Realtime-Whisper 是每分鐘 0.017 美元,GPT-Realtime-Translate 是每分鐘 0.034 美元,GPT-Realtime-2 按 token 計費,音頻輸入 32 美元 / 百萬 token,音頻輸出 64 美元 / 百萬 token。
而把這些功能湊在一起看,我們會發現軟體的邏輯正在發生根本性的變化。
以前,我們要學習怎麼用鍵盤敲代碼,怎麼在複雜的菜單欄里找功能,怎麼把自己的需求翻譯成 AI 能懂的關鍵詞。但現在的趨勢是,
AI 反過來開始遷就我們了。

語音,正在從一個笨拙的「輔助功能」,變成我們掌控數字世界最自然的接口。因為說話,本來就是人類最不需要學習的本能。
技術發展的盡頭,總是傾向於把複雜的東西藏起來,把最簡單、最自然的一面留給普通人。或許就在不久的將來,你出門真的只需要帶個耳機,靠一張嘴就能搞定所有工作和生活瑣事。
不過話說回來,這也挺讓人感慨的。當我們習慣了那個永遠情緒穩定、甚至還能看懂所有潛台詞的 AI 之後,我們還能忍受現實世界裡,人類之間那充滿誤解和低效的溝通嗎?
附上部落格地址:
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/






