微软推出新 AI：数小时音频瞬间转文字，企业将迎来福音

不要错过这些

下一篇推荐阅读：

微软现已拥有一款能将数小时音频瞬间转为文本的 AI——企业用户必将青睐有加

新闻

作者： Kevin Okemwa 发布于： 2026 年 4 月 2 日

MAI-Transcribe-1 在全球使用最广泛的 25 种语言中均具备卓越的语音转文本准确率。

点击阅读下一篇文章

AI 首席执行官 Mustafa Suleyman 带领微软发布了一系列内部自研 AI 模型，这些模型将通过 Microsoft Foundry 提供。

（图片来源：Getty Images | Stephen Brashear）

复制链接

Facebook

Flipboard

Bluesky

Threads

电子邮件

分享本文

参与讨论

关注我们

在 Google 上将我们添加为首选来源

通讯订阅

获取 Windows Central 通讯

面向 Windows 和 Xbox 忠实用户的所有最新新闻、评测和指南。

秒速成为会员

解锁独家会员功能的即时访问权限。

请通过其他 Future 品牌的新闻和优惠联系我

接收我们代表可信合作伙伴或赞助商发送的电子邮件

提交您的信息即表示您同意条款与条件和隐私政策，且年满 16 岁。

您已订阅

您的通讯订阅成功

加入俱乐部

完全访问高级文章、独家功能及不断增长的会员奖励列表。

探索

此电子邮件地址已存在账户，请登录。

订阅我们的通讯

微软正在生成式 AI 领域加大投入力度，推出了包括"MAI-Transcribe-1"在内的新型内部自研 AI 模型。这是一款先进的转录模型，旨在为全球使用最广泛的 25 种语言提供顶尖的语音转文本准确率，使其成为会议记录、隐藏式字幕或其他形式语音听写的理想选择。

MAI-Transcribe-1 将与 MAI-Voice-1 和 MAI-Image-2 一同在 Microsoft Foundry 平台上提供：

“随着此次发布，MAI 模型将首次广泛适用于商业用途，使客户能够评估并利用转录、语音和图像生成模型进行构建，”微软表示。

微软表示，MAI-Voice-1 搭载了超逼真语音生成功能，可在长篇内容中保留说话者的身份特征及情感表现力。它还配备了一项新的语音提示功能，仅需一分钟音频即可创建自定义品牌音色。

*文章继续下方*

此外，MAI-Image-2 是微软新的文生图模型，擅长处理自然光照、准确肤色及清晰的图内文字。更重要的是，它在 Arena.ai 文生图排行榜中排名前三。

那么，微软是在建立自己的 AI 阵营吗？

众所周知，微软严重依赖 OpenAI 的 AI 技术，并已将其深度集成到自身的技术栈中。然而，这家科技巨头曾公开批评 ChatGPT 制造商的 GPT-4 技术，称其过于昂贵且缓慢，无法满足消费者需求。

去年，微软开始开发 i