微軟發布三款新AI模型，超越傳統文本處理邊界

微軟正在將AI模型發展重點擴展到傳統大語言模型之外。該公司在周四宣布，將發布三款全新的AI模型：全新的語音和文本轉錄模型，以及第二代自主研發的圖像模型。

贊助商廣告

語音和文本轉錄模型突破

這些語音和文本轉錄模型是微軟首次推出的同類產品。轉錄模型能夠將錄音內容翻譯成25種不同語言的文字，專門為影片字幕生成、會議轉錄和語音智能體而設計。語音模型則可以創建長達60秒的音頻錄製內容。

圖像生成能力全面升級

微軟表示，其第二代圖像模型在生成速度和真實感方面都有顯著提升，相比上一版本有了明顯改進。這些模型現已在微軟的Foundry和MAI平台上線，未來計劃將MAI-Image-2集成到Bing搜索和PowerPoint演示軟體中。

戰略布局多元化AI市場

這些新模型清晰地表明微軟正在尋求擴大其在AI市場的產品線覆蓋。微軟的Copilot已成為企業用戶最受歡迎的聊天機器人之一，特別是對於已經使用微軟Office 365套件和Azure雲服務的用戶。除了現已過時的原始圖像模型外，微軟此前主要專注於基於文本的模型，努力在眾多競爭對手中將自己定位為安全、企業友好的選擇。其最新的AI工具Copilot Cowork和Copilot Health就是這一策略的證明。

傳統科技巨頭的資源優勢

這些模型也提醒人們，微軟作為傳統科技公司，擁有足夠的資金和計算資源來投入這些"支線任務"，這是即使像OpenAI這樣價值數十億美元的初創公司也無法始終承擔的。上周，OpenAI確認將停止其Sora AI影片應用，聲稱將重新聚焦於核心業務。2026年的AI行業一直在努力證明其工具在工作場所的實用性，特別是在Anthropic的Claude Code超越競爭對手的情況下。

生成媒體的成本挑戰

生成式媒體，比如驅動AI圖像和影片生成的模型，需要大量的計算和能源資源來運行，這些資源本可以用於其他地方。谷歌作為另一家在AI研究上投入數十億美元預算的傳統科技公司，本周表示不會放棄生成式媒體，但將努力讓模型更具成本效益和能效，正如其新推出的Veo 3.1 Lite影片模型所體現的那樣。

贊助商廣告

Q&A

Q1：微軟發布的三款新AI模型分別有什麼功能？

A：微軟發布了語音轉錄模型、文本轉錄模型和第二代圖像模型。轉錄模型可以將錄音轉換為25種語言的文字，主要用於影片字幕、會議轉錄和語音智能體；語音模型能創建長達60秒的音頻；圖像模型在生成速度和真實感方面都有顯著提升。

Q2：這些AI模型什麼時候能用上？

A：這些模型現已在微軟的Foundry和MAI平台上線提供服務。未來微軟計劃將MAI-Image-2圖像模型集成到Bing搜尋引擎和PowerPoint演示軟體中，開發者可以查看相關定價資訊。

Q3：為什麼微軟要開發這些非文本類的AI模型？

A：微軟希望擴大在AI市場的產品覆蓋範圍，超越傳統的大語言模型。作為傳統科技巨頭，微軟擁有足夠的資金和計算資源投入這些多樣化的AI技術研發，這是許多初創公司無法承擔的，有助於在激烈的AI競爭中保持優勢地位。