終於能聽 GPT-5 給我說人話了

不知道大家平時有沒有這種經歷。

每次遇到點急事，打給各大公司的智能客服，電話那頭永遠是那個字正腔圓但毫無感情的聲音：「查詢服務請按 1，人工服務請按 0……」接著就是漫長的音樂，以及那句讓人抓狂的「對不起，我沒聽懂，請再說一遍」。

贊助商廣告

Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice agents. Voice agents are now real-time collaborators that can listen, reason, and solve complex problems as conversations unfold. Now available in the API alongside streaming models GPT-Realtime-Translate and GPT-Realtime-Whisper — a new set of audio capabilities for the next generation of voice interfaces.

但就在剛剛，OpenAI 發布了 Realtime API 實時語音模型的全家桶。看了看他們的演示，這回，他們是真心想讓機器說「人話」，辦「人事」。

as a side note, young people seem to prefer to interact with AI via voice, and old people, and people in the middle like to type. i wonder if this will change.

贊助商廣告

省流版如下：

GPT-Realtime-2：構建可用於生產環境的語音智能體。它們能夠進行更深入的思考、執行操作、處理中斷，並讓對話持續自然地進行。
GPT-Realtime-Translate：支持 70 多種輸入語言和 13 種輸出語言的實時翻譯，打破語言障礙，幫助人們更自然地交流。
GPT-Realtime-Whisper：實時轉錄音頻流，生成字幕和注釋。

終於，AI 學會了「稍等片刻」

如果說擬人化是面子，那麼底層的推理能力就是里子。

這次的主力選手非 GPT-Realtime-2 莫屬，基準測試結果顯示，GPT-Realtime-2 在 Big Bench Audio（音頻智能測試）上比上一代高了 15.2%，在 Audio MultiChallenge（多輪對話指令跟隨測試）上高了 13.8%。Zillow 內部用最難的對抗性測試跑了一遍，調用成功率從 69% 跳到了 95%，提升了 26 個百分點。

以前的語音助手，腦迴路其實很直。你說「放首歌」，它放一首歌；你說「關燈」，它把燈關了。如果你一口氣給它布置三個任務，順便還改了兩次主意，它八成就當場罷工了。

但 GPT-Realtime-2 不一樣之處在於，OpenAI 直接把 GPT-5 級別的推理能力塞進了這個語音模型里，給我一種 GPT-5「說人話」的即視感。

舉個很實在的例子，假設你正在開車，隨口吩咐它：「幫我找個離地鐵站近的房子，租金別太貴，避開那些主幹道，如果可以的話，周六下午幫我約個中介看房。」

Been having too much fun with GPT-Realtime-2 in the API, not just for fun personal things, but for really elegant complex voice interactions in @chatprd Why type when you can talk?

▲ 網友 @clairevo 演示了用 GPT-Realtime-2 跑完一個完整的 PRD（產品需求文檔）寫作流程：先口述需求，AI 生成文檔，再用語音要求改格式，AI 隨即更新，全程對話驅動，沒有動過鍵盤。

贊助商廣告

這就不是簡單的語音識別了，這需要它聽懂你的各種限制條件，去地圖上篩位置，去對比價格，最後還要去匹配中介的時間表。為了干好這種複雜的活，OpenAI 給它點亮了兩個非常特別的技能樹。

第一個技能，叫「Parallel tool calls（並行工具調用）」。它現在可以多線程操作，一邊跟你講著話，腦子裡一邊同時調動地圖、日曆、租房軟體好幾個工具。你可以聽到它在電話里嘀咕：「正在看您的日程表……」「正在查找附近的房源……」這就很像你給一個得力助手打電話，你能聽見他在電話那頭噼里啪啦敲鍵盤查資料的聲音。

Here’s OpenAI’s latest realtime voice model, GPT-Realtime-2, wired up to OpenClaw. It’s amazing. Realtime continuous chat and fast OpenClaw agent action on real tasks. Truly excellent.

▲ 用戶 Ben Badejo 通過和 GPT-Realtime-2 直接對話，藉助 OpenClaw 用語音驅動 AI 操控瀏覽器，先打開 Google，再跳轉到華爾街日報網站。整個過程中，AI 一邊執行操作，一邊主動說明自己在沒有瀏覽器權限時還能幫上哪些忙。

這就引出了第二個，也是我覺得最有人情味的一個更新——「Preambles（開場白）」。

人在思考或者處理複雜事情的時候，是做不到秒回的，我們通常會說「呃，讓我想想」或者「稍等啊，我找找」。現在 AI 也學會這一招了。當它在後台瘋狂拉取數據的時候，它會非常自然地對你說：「好的，沒問題，給我一小會兒時間我來核實一下。」
這種看似「廢話」的設計，反而最大程度緩解了我們等待時的焦慮感。

贊助商廣告

有意思的是，開發者現在能控制它的推理強度（從極簡到極高：minimal、low、 medium、high、xhigh）。你要是問它今天下不下雨，它就用最快速度回你；要是你丟給它一個「幫我盤一盤開個咖啡店會不會虧本」的商業大題，它就會拉滿算力跟你慢慢分析。

把「同聲傳譯」變成白菜價？

除了 GPT-Realtime-2，這次還有個非常搶眼的配角：GPT-Realtime-Translate（實時翻譯）。

我們平時用的翻譯軟體，大部分是「回合制」的。你按住說話，鬆手，等幾秒，機器再字正腔圓地播報出來。如果是旅遊問個路還行，要是真拿來開跨國會議，那種互相大眼瞪小眼的停頓，尷尬得能讓人用腳趾摳出個三室一廳。

但這個新模型，主打就是一個「實時翻譯」。

它支持 70 多種語言輸入，能做到你在那邊滔滔不絕，它在另一頭幾乎同步地輸出翻譯結果。更厲害的是它對各種「口音」的包容度。印度有家叫 BolnaAI 的公司拿印地語的濃重口音去測它，結果發現這模型不僅沒被繞暈，準確率還比其他同類產品高了一大截。

The new live translator model is really outstanding - it can translate synchronously without getting confused. This video is just my screen recording with no editing. I built a little chrome extension that can hook into a YouTube video and translate it automatically live to lots of different languages - I love this. Link to github below, you'll need to add your own API key to it.

▲ 開發者 Peter Gostev 做了個 Chrome 插件，直接接入 YouTube 影片，邊播邊把內容實時翻譯成多種語言，中文表現不錯，但多少還是有點口音，

贊助商廣告

以後大家在網上看國外大神沒有字幕的實操教學，或者聽某些沒有同傳的海外發布會，直接把這個插件一開，它就能順著原影片的節奏，穩穩噹噹把你熟悉的母語送到你耳朵里。

除此之外，加上剛剛發布的 GPT-Realtime-Whisper（極低延遲的語音轉文字）功能，以後遇到開會的場景，領導在說話，你這邊的螢幕上就已經實時把大餅轉化成了結構清晰的會議紀要。

至於定價方面，GPT-Realtime-Whisper 是每分鐘 0.017 美元，GPT-Realtime-Translate 是每分鐘 0.034 美元，GPT-Realtime-2 按 token 計費，音頻輸入 32 美元 / 百萬 token，音頻輸出 64 美元 / 百萬 token。

而把這些功能湊在一起看，我們會發現軟體的邏輯正在發生根本性的變化。
以前，我們要學習怎麼用鍵盤敲代碼，怎麼在複雜的菜單欄里找功能，怎麼把自己的需求翻譯成 AI 能懂的關鍵詞。但現在的趨勢是，

AI 反過來開始遷就我們了。

語音，正在從一個笨拙的「輔助功能」，變成我們掌控數字世界最自然的接口。因為說話，本來就是人類最不需要學習的本能。

技術發展的盡頭，總是傾向於把複雜的東西藏起來，把最簡單、最自然的一面留給普通人。或許就在不久的將來，你出門真的只需要帶個耳機，靠一張嘴就能搞定所有工作和生活瑣事。

不過話說回來，這也挺讓人感慨的。當我們習慣了那個永遠情緒穩定、甚至還能看懂所有潛台詞的 AI 之後，我們還能忍受現實世界裡，人類之間那充滿誤解和低效的溝通嗎？

附上部落格地址：
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/