宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

終於能聽 GPT-5 給我說人話了

2026年05月08日 首頁 » 熱門科技
終於能聽 GPT-5 給我說人話了

不知道大家平時有沒有這種經歷。

每次遇到點急事,打給各大公司的智能客服,電話那頭永遠是那個字正腔圓但毫無感情的聲音:「查詢服務請按 1,人工服務請按 0……」接著就是漫長的音樂,以及那句讓人抓狂的「對不起,我沒聽懂,請再說一遍」。

但就在剛剛,OpenAI 發布了 Realtime API 實時語音模型的全家桶。看了看他們的演示,這回,他們是真心想讓機器說「人話」,辦「人事」。

省流版如下:

  • GPT-Realtime-2:構建可用於生產環境的語音智能體。它們能夠進行更深入的思考、執行操作、處理中斷,並讓對話持續自然地進行。
  • GPT-Realtime-Translate:支持 70 多種輸入語言和 13 種輸出語言的實時翻譯,打破語言障礙,幫助人們更自然地交流。
  • GPT-Realtime-Whisper:實時轉錄音頻流,生成字幕和注釋。

終於,AI 學會了「稍等片刻」

如果說擬人化是面子,那麼底層的推理能力就是里子。

這次的主力選手非 GPT-Realtime-2 莫屬,基準測試結果顯示,GPT-Realtime-2 在 Big Bench Audio(音頻智能測試)上比上一代高了 15.2%,在 Audio MultiChallenge(多輪對話指令跟隨測試)上高了 13.8%。Zillow 內部用最難的對抗性測試跑了一遍,調用成功率從 69% 跳到了 95%,提升了 26 個百分點。

終於能聽 GPT-5 給我說人話了

以前的語音助手,腦迴路其實很直。你說「放首歌」,它放一首歌;你說「關燈」,它把燈關了。如果你一口氣給它布置三個任務,順便還改了兩次主意,它八成就當場罷工了。

但 GPT-Realtime-2 不一樣之處在於,OpenAI 直接把 GPT-5 級別的推理能力塞進了這個語音模型里,給我一種 GPT-5「說人話」的即視感。

舉個很實在的例子,假設你正在開車,隨口吩咐它:「幫我找個離地鐵站近的房子,租金別太貴,避開那些主幹道,如果可以的話,周六下午幫我約個中介看房。」

▲ 網友 @clairevo 演示了用 GPT-Realtime-2 跑完一個完整的 PRD(產品需求文檔)寫作流程:先口述需求,AI 生成文檔,再用語音要求改格式,AI 隨即更新,全程對話驅動,沒有動過鍵盤。

這就不是簡單的語音識別了,這需要它聽懂你的各種限制條件,去地圖上篩位置,去對比價格,最後還要去匹配中介的時間表。為了干好這種複雜的活,OpenAI 給它點亮了兩個非常特別的技能樹。

第一個技能,叫「Parallel tool calls(並行工具調用)」。它現在可以多線程操作,一邊跟你講著話,腦子裡一邊同時調動地圖、日曆、租房軟體好幾個工具。你可以聽到它在電話里嘀咕:「正在看您的日程表……」「正在查找附近的房源……」這就很像你給一個得力助手打電話,你能聽見他在電話那頭噼里啪啦敲鍵盤查資料的聲音。

▲ 用戶 Ben Badejo 通過和 GPT-Realtime-2 直接對話,藉助 OpenClaw 用語音驅動 AI 操控瀏覽器,先打開 Google,再跳轉到華爾街日報網站。整個過程中,AI 一邊執行操作,一邊主動說明自己在沒有瀏覽器權限時還能幫上哪些忙。

這就引出了第二個,也是我覺得最有人情味的一個更新——「Preambles(開場白)」。

人在思考或者處理複雜事情的時候,是做不到秒回的,我們通常會說「呃,讓我想想」或者「稍等啊,我找找」。現在 AI 也學會這一招了。當它在後台瘋狂拉取數據的時候,它會非常自然地對你說:「好的,沒問題,給我一小會兒時間我來核實一下。」
這種看似「廢話」的設計,反而最大程度緩解了我們等待時的焦慮感。

有意思的是,開發者現在能控制它的推理強度(從極簡到極高:minimal、low、 medium、high、xhigh)。你要是問它今天下不下雨,它就用最快速度回你;要是你丟給它一個「幫我盤一盤開個咖啡店會不會虧本」的商業大題,它就會拉滿算力跟你慢慢分析。

把「同聲傳譯」變成白菜價?

除了 GPT-Realtime-2,這次還有個非常搶眼的配角:GPT-Realtime-Translate(實時翻譯)。

我們平時用的翻譯軟體,大部分是「回合制」的。你按住說話,鬆手,等幾秒,機器再字正腔圓地播報出來。如果是旅遊問個路還行,要是真拿來開跨國會議,那種互相大眼瞪小眼的停頓,尷尬得能讓人用腳趾摳出個三室一廳。

但這個新模型,主打就是一個「實時翻譯」。

它支持 70 多種語言輸入,能做到你在那邊滔滔不絕,它在另一頭幾乎同步地輸出翻譯結果。更厲害的是它對各種「口音」的包容度。印度有家叫 BolnaAI 的公司拿印地語的濃重口音去測它,結果發現這模型不僅沒被繞暈,準確率還比其他同類產品高了一大截。

 

▲ 開發者 Peter Gostev 做了個 Chrome 插件,直接接入 YouTube 影片,邊播邊把內容實時翻譯成多種語言,中文表現不錯,但多少還是有點口音,

以後大家在網上看國外大神沒有字幕的實操教學,或者聽某些沒有同傳的海外發布會,直接把這個插件一開,它就能順著原影片的節奏,穩穩噹噹把你熟悉的母語送到你耳朵里。

除此之外,加上剛剛發布的 GPT-Realtime-Whisper(極低延遲的語音轉文字)功能,以後遇到開會的場景,領導在說話,你這邊的螢幕上就已經實時把大餅轉化成了結構清晰的會議紀要。

至於定價方面,GPT-Realtime-Whisper 是每分鐘 0.017 美元,GPT-Realtime-Translate 是每分鐘 0.034 美元,GPT-Realtime-2 按 token 計費,音頻輸入 32 美元 / 百萬 token,音頻輸出 64 美元 / 百萬 token。

而把這些功能湊在一起看,我們會發現軟體的邏輯正在發生根本性的變化。
以前,我們要學習怎麼用鍵盤敲代碼,怎麼在複雜的菜單欄里找功能,怎麼把自己的需求翻譯成 AI 能懂的關鍵詞。但現在的趨勢是,

AI 反過來開始遷就我們了。

終於能聽 GPT-5 給我說人話了

語音,正在從一個笨拙的「輔助功能」,變成我們掌控數字世界最自然的接口。因為說話,本來就是人類最不需要學習的本能。

技術發展的盡頭,總是傾向於把複雜的東西藏起來,把最簡單、最自然的一面留給普通人。或許就在不久的將來,你出門真的只需要帶個耳機,靠一張嘴就能搞定所有工作和生活瑣事。

不過話說回來,這也挺讓人感慨的。當我們習慣了那個永遠情緒穩定、甚至還能看懂所有潛台詞的 AI 之後,我們還能忍受現實世界裡,人類之間那充滿誤解和低效的溝通嗎?

附上部落格地址:
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新