宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

OpenAI升級語音文本互轉模型,精準識別口音和語調、指定說話風格

2025年03月21日 首頁 » 熱門科技

OpenAI升級語音文本互轉模型,精準識別口音和語調、指定說話風格


OpenAI借API推出全新文本轉語音和語音轉文本模型,這些模型性能相較先前版本有顯著提升。

OpenAI新推出的文本轉語音模型「gpt-4o‑mini‑tts」不僅能產生細膩、自然的語音,且比上一代更容易「指導」,也就是說開發者可用自然語言指令指定說話風格,例如「用瘋狂科學家的口吻說話」或「以正念(mindfulness)老師的語調說話」。

這項技術可讓開發者同時自訂聲音體驗和語境情感,「在不同場景下,你不希望只聽到單調平穩的語音。若客服系統犯錯,需要表達歉意,就能讓語音帶有相應的情緒⋯⋯我們相信,企業客戶想要掌控的不只是說什麼,而是怎麼說」,OpenAI API產品經理Jeff Harris表示。

還有推出新的語音轉文本模型「gpt-4o-transcribe」和「gpt-4o-mini-transcribe」,將取代Open首席人工智慧官期使用的Whisper模型。

新模型以多樣且高品質的語音數據集訓練而成,在嘈雜環境也能精準識別各種口音和語調,同時大幅降低「幻覺」帶來的錯誤,過去Whisper曾因誤植字詞乃至整段內容錯誤遭用戶詬病。

「這些模型在準確度方面相較Whisper有明顯提升,確保模型輸出精準無誤,是打造可靠語音體驗的關鍵——準確度意味著模型只聽見實際講出的字詞,而不會自行填充未曾聽到的內容」,Jeff Harris表示。

對OpenAI而言,新的文本轉語音和語音轉文本模型符合更廣泛的AI代理願景,即打造能夠自主代替用戶執行任務的AI系統。OpenAI平台產品負責人Olivier Godement表示,儘管AI代理的定義尚有爭議,但有一種可行的解釋是:能以語音與用戶互動的AI聊天機器人。

「未來幾個月,我們將看到越來越多的AI代理問世。我們的核心目標是協助企業客戶和開發者利用這些有用、可用且準確的AI代理」,Olivier Godement表示。

OpenAI借API推出全新文本轉語音和語音轉文本模型。

(首圖來源:OpenAI Blog)

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2025 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新