微软自研三款AI模型，正面硬刚OpenAI

应用

微软发出了迄今为止最明确的信号：正在构建一个不依赖 OpenAI 的 AI 帝国

2026年4月3日 - 下午 7:06

在重新谈判那份曾经禁止其独立研发前沿 AI 的合同六个月后，微软发布了三款自研模型，直接挑战了这位其斥资 130 亿美元精心培育的合作伙伴。MAI-Transcribe-1、MAI-Voice-1 和 MAI-Image-2 现已在 Microsoft Foundry 上线，且它们的标签上丝毫没有出现 OpenAI 的名字。

这些模型是 MAI 超级智能团队（MAI Superintelligence team）首批公开发布的成果。该团队由微软 AI 首席执行官穆斯塔法·苏莱曼（Mustafa Suleyman）于 2025 年 11 月组建，其公开使命是追求公司所谓的“人文主义超级智能”。据《商业内幕》（Business Insider）率先报道，苏莱曼在 3 月的一份内部备忘录中写道，他打算在未来五年内将所有精力集中在超级智能上，并为微软提供世界级的模型。如今，这一雄心壮志有了首个实质性证据。

从纸面数据来看，MAI-Transcribe-1 是这三者中最具即时颠覆性的。该语音转文本模型声称在 FLEURS 基准测试的 25 种语言中拥有最低的词错误率，平均仅为 3.8%。微软表示，它在所有 25 种语言上的表现均优于 OpenAI 的 Whisper-large-v3，在 25 种语言中的 22 种上优于谷歌的 Gemini 3.1 Flash，在 15 种语言上优于 ElevenLabs 的 Scribe v2。其运行速度比微软之前的 Azure 快速转录服务快 2.5 倍，价格为每小时音频 0.36 美元。也许最能说明问题的是构建它的团队：仅有 10 人。

MAI-Voice-1 补全了音频闭环。该文本转语音模型可在单块 GPU 上于 1 秒内生成 60 秒的自然音频，并支持通过数秒的样本音频创建自定义声音。结合 MAI-Transcribe-1 和客户选定的大语言模型，它构成了一个完全在微软基础设施上运行的完整语音管道，且不依赖 OpenAI 的任何技术。

*TNW City 联合办公空间 —— 成就您最佳工作的场所* *一个位于科技中心，专为成长、协作和无限社交机会而设计的工作空间。* *立即预约参观*

MAI-Image-2 是这三者中发布时间最早的，早在 3 月份就已首次亮相，并在 Arena.ai 文生图排行榜上名列第三，仅次于谷歌的 Gemini 3.1 Flash 和 OpenAI 的 GPT Image 1.5。该模型是与摄影师、设计师和视觉叙事者合作开发的，全球最大的营销集团之一 WPP 是首批大规模使用该模型的企业合作伙伴之一。

战略背景比基准测试结果更为重要。直到 2025 年 9 月重新谈判之前，微软与 OpenAI 的原始合作协议在合同上禁止该公司独立进行通用 AI 开发。修订后的谅解备忘录从根本上改变了这一考量。微软保留了 OpenAI 在 2032 年之前构建的所有内容的许可权，并获得了 2.5 亿美元……（