微软正加速构建独立于OpenAI的AI帝国。近期,微软发布三款自研模型(MAI-Transcribe-1、MAI-Voice-1、MAI-Image-2),在语音转文本、语音合成及图像生成领域表现优异,部分性能超越OpenAI及谷歌竞品。此举是微软在重新谈判合同、解除独立研发限制后的实质性动作,旨在摆脱对OpenAI的依赖,确立自身在超级智能领域的自主权。
应用
微软发出了迄今为止最明确的信号:正在构建一个不依赖 OpenAI 的 AI 帝国
2026年4月3日 - 下午 7:06
在重新谈判那份曾经禁止其独立研发前沿 AI 的合同六个月后,微软发布了三款自研模型,直接挑战了这位其斥资 130 亿美元精心培育的合作伙伴。MAI-Transcribe-1、MAI-Voice-1 和 MAI-Image-2 现已在 Microsoft Foundry 上线,且它们的标签上丝毫没有出现 OpenAI 的名字。
这些模型是 MAI 超级智能团队(MAI Superintelligence team)首批公开发布的成果。该团队由微软 AI 首席执行官穆斯塔法·苏莱曼(Mustafa Suleyman)于 2025 年 11 月组建,其公开使命是追求公司所谓的“人文主义超级智能”。据《商业内幕》(Business Insider)率先报道,苏莱曼在 3 月的一份内部备忘录中写道,他打算在未来五年内将所有精力集中在超级智能上,并为微软提供世界级的模型。如今,这一雄心壮志有了首个实质性证据。
从纸面数据来看,MAI-Transcribe-1 是这三者中最具即时颠覆性的。该语音转文本模型声称在 FLEURS 基准测试的 25 种语言中拥有最低的词错误率,平均仅为 3.8%。微软表示,它在所有 25 种语言上的表现均优于 OpenAI 的 Whisper-large-v3,在 25 种语言中的 22 种上优于谷歌的 Gemini 3.1 Flash,在 15 种语言上优于 ElevenLabs 的 Scribe v2。其运行速度比微软之前的 Azure 快速转录服务快 2.5 倍,价格为每小时音频 0.36 美元。也许最能说明问题的是构建它的团队:仅有 10 人。
MAI-Voice-1 补全了音频闭环。该文本转语音模型可在单块 GPU 上于 1 秒内生成 60 秒的自然音频,并支持通过数秒的样本音频创建自定义声音。结合 MAI-Transcribe-1 和客户选定的大语言模型,它构成了一个完全在微软基础设施上运行的完整语音管道,且不依赖 OpenAI 的任何技术。
*TNW City 联合办公空间 —— 成就您最佳工作的场所* *一个位于科技中心,专为成长、协作和无限社交机会而设计的工作空间。* *立即预约参观*
MAI-Image-2 是这三者中发布时间最早的,早在 3 月份就已首次亮相,并在 Arena.ai 文生图排行榜上名列第三,仅次于谷歌的 Gemini 3.1 Flash 和 OpenAI 的 GPT Image 1.5。该模型是与摄影师、设计师和视觉叙事者合作开发的,全球最大的营销集团之一 WPP 是首批大规模使用该模型的企业合作伙伴之一。
战略背景比基准测试结果更为重要。直到 2025 年 9 月重新谈判之前,微软与 OpenAI 的原始合作协议在合同上禁止该公司独立进行通用 AI 开发。修订后的谅解备忘录从根本上改变了这一考量。微软保留了 OpenAI 在 2032 年之前构建的所有内容的许可权,并获得了 2.5 亿美元……(
来源:
