宅中地 - 每日更新
宅中地 - 每日更新

贊助商廣告

X

微軟發布三款新AI模型,超越傳統文本處理邊界

2026年04月03日 首頁 » 熱門科技

微軟正在將AI模型發展重點擴展到傳統大語言模型之外。該公司在周四宣布,將發布三款全新的AI模型:全新的語音和文本轉錄模型,以及第二代自主研發的圖像模型。

語音和文本轉錄模型突破

這些語音和文本轉錄模型是微軟首次推出的同類產品。轉錄模型能夠將錄音內容翻譯成25種不同語言的文字,專門為影片字幕生成、會議轉錄和語音智能體而設計。語音模型則可以創建長達60秒的音頻錄製內容。

圖像生成能力全面升級

微軟表示,其第二代圖像模型在生成速度和真實感方面都有顯著提升,相比上一版本有了明顯改進。這些模型現已在微軟的Foundry和MAI平台上線,未來計劃將MAI-Image-2集成到Bing搜索和PowerPoint演示軟體中。

戰略布局多元化AI市場

這些新模型清晰地表明微軟正在尋求擴大其在AI市場的產品線覆蓋。微軟的Copilot已成為企業用戶最受歡迎的聊天機器人之一,特別是對於已經使用微軟Office 365套件和Azure雲服務的用戶。除了現已過時的原始圖像模型外,微軟此前主要專注於基於文本的模型,努力在眾多競爭對手中將自己定位為安全、企業友好的選擇。其最新的AI工具Copilot Cowork和Copilot Health就是這一策略的證明。

傳統科技巨頭的資源優勢

這些模型也提醒人們,微軟作為傳統科技公司,擁有足夠的資金和計算資源來投入這些"支線任務",這是即使像OpenAI這樣價值數十億美元的初創公司也無法始終承擔的。上周,OpenAI確認將停止其Sora AI影片應用,聲稱將重新聚焦於核心業務。2026年的AI行業一直在努力證明其工具在工作場所的實用性,特別是在Anthropic的Claude Code超越競爭對手的情況下。

生成媒體的成本挑戰

生成式媒體,比如驅動AI圖像和影片生成的模型,需要大量的計算和能源資源來運行,這些資源本可以用於其他地方。谷歌作為另一家在AI研究上投入數十億美元預算的傳統科技公司,本周表示不會放棄生成式媒體,但將努力讓模型更具成本效益和能效,正如其新推出的Veo 3.1 Lite影片模型所體現的那樣。

Q&A

Q1:微軟發布的三款新AI模型分別有什麼功能?

A:微軟發布了語音轉錄模型、文本轉錄模型和第二代圖像模型。轉錄模型可以將錄音轉換為25種語言的文字,主要用於影片字幕、會議轉錄和語音智能體;語音模型能創建長達60秒的音頻;圖像模型在生成速度和真實感方面都有顯著提升。

Q2:這些AI模型什麼時候能用上?

A:這些模型現已在微軟的Foundry和MAI平台上線提供服務。未來微軟計劃將MAI-Image-2圖像模型集成到Bing搜尋引擎和PowerPoint演示軟體中,開發者可以查看相關定價資訊。

Q3:為什麼微軟要開發這些非文本類的AI模型?

A:微軟希望擴大在AI市場的產品覆蓋範圍,超越傳統的大語言模型。作為傳統科技巨頭,微軟擁有足夠的資金和計算資源投入這些多樣化的AI技術研發,這是許多初創公司無法承擔的,有助於在激烈的AI競爭中保持優勢地位。

宅中地 - Facebook 分享 宅中地 - Twitter 分享 宅中地 - Whatsapp 分享 宅中地 - Line 分享
相關內容
Copyright ©2026 | 服務條款 | DMCA | 聯絡我們
宅中地 - 每日更新