微軟正在將AI模型發展重點擴展到傳統大語言模型之外。該公司在周四宣布,將發布三款全新的AI模型:全新的語音和文本轉錄模型,以及第二代自主研發的圖像模型。
語音和文本轉錄模型突破
這些語音和文本轉錄模型是微軟首次推出的同類產品。轉錄模型能夠將錄音內容翻譯成25種不同語言的文字,專門為影片字幕生成、會議轉錄和語音智能體而設計。語音模型則可以創建長達60秒的音頻錄製內容。
圖像生成能力全面升級
微軟表示,其第二代圖像模型在生成速度和真實感方面都有顯著提升,相比上一版本有了明顯改進。這些模型現已在微軟的Foundry和MAI平台上線,未來計劃將MAI-Image-2集成到Bing搜索和PowerPoint演示軟體中。
戰略布局多元化AI市場
這些新模型清晰地表明微軟正在尋求擴大其在AI市場的產品線覆蓋。微軟的Copilot已成為企業用戶最受歡迎的聊天機器人之一,特別是對於已經使用微軟Office 365套件和Azure雲服務的用戶。除了現已過時的原始圖像模型外,微軟此前主要專注於基於文本的模型,努力在眾多競爭對手中將自己定位為安全、企業友好的選擇。其最新的AI工具Copilot Cowork和Copilot Health就是這一策略的證明。
傳統科技巨頭的資源優勢
這些模型也提醒人們,微軟作為傳統科技公司,擁有足夠的資金和計算資源來投入這些"支線任務",這是即使像OpenAI這樣價值數十億美元的初創公司也無法始終承擔的。上周,OpenAI確認將停止其Sora AI影片應用,聲稱將重新聚焦於核心業務。2026年的AI行業一直在努力證明其工具在工作場所的實用性,特別是在Anthropic的Claude Code超越競爭對手的情況下。
生成媒體的成本挑戰
生成式媒體,比如驅動AI圖像和影片生成的模型,需要大量的計算和能源資源來運行,這些資源本可以用於其他地方。谷歌作為另一家在AI研究上投入數十億美元預算的傳統科技公司,本周表示不會放棄生成式媒體,但將努力讓模型更具成本效益和能效,正如其新推出的Veo 3.1 Lite影片模型所體現的那樣。
Q&A
Q1:微軟發布的三款新AI模型分別有什麼功能?
A:微軟發布了語音轉錄模型、文本轉錄模型和第二代圖像模型。轉錄模型可以將錄音轉換為25種語言的文字,主要用於影片字幕、會議轉錄和語音智能體;語音模型能創建長達60秒的音頻;圖像模型在生成速度和真實感方面都有顯著提升。
Q2:這些AI模型什麼時候能用上?
A:這些模型現已在微軟的Foundry和MAI平台上線提供服務。未來微軟計劃將MAI-Image-2圖像模型集成到Bing搜尋引擎和PowerPoint演示軟體中,開發者可以查看相關定價資訊。
Q3:為什麼微軟要開發這些非文本類的AI模型?
A:微軟希望擴大在AI市場的產品覆蓋範圍,超越傳統的大語言模型。作為傳統科技巨頭,微軟擁有足夠的資金和計算資源投入這些多樣化的AI技術研發,這是許多初創公司無法承擔的,有助於在激烈的AI競爭中保持優勢地位。






