xAI 在 Grok 4.3 中免费推出“自定义语音”功能,用户仅需录制约一分钟样本,两分钟内即可生成个性化克隆语音。该功能集成于现有 TTS 及语音智能体 API,支持无缝调用。为确保安全,系统采用双重验证机制:需实时朗读动态口令并通过说话人嵌入匹配,以防未授权克隆。不过,xAI 尚未公开具体的反欺骗测试数据及安全指标,其安全性主张待外部验证。
xAI 为新一代 Grok 4.3 AI 模型新增语音克隆功能
xAI 已在 Grok 4.3 中推出“自定义语音”(Custom Voices)功能,用户只需提供约一分钟的语音样本,即可在双重验证机制下完成声音克隆。该机制包含实时口令验证与说话人嵌入匹配两道关卡,以确保授权合规。
作者:Markus Kasanmascheff 发布时间:2026 年 5 月 3 日 12:16(中欧夏令时)
要点摘要:
- 语音克隆正式上线:xAI 于 5 月 2 日推出 Custom Voices 功能,仅需约一分钟的自然语音输入,即可在两分钟内生成个性化语音模型。 - 双重验证门禁:系统要求用户实时朗读指定口令,并通过说话人嵌入(speaker embedding)比对,确保录音来源一致。xAI 表示,该机制可有效防止利用既有录音对第三方进行未经授权的语音克隆。 - 免费集成于 Grok 4.3:该功能作为 Grok 4.3 的一部分,免费提供于 xAI 控制台,并与现有的 80 多种预设语音共享文本转语音(TTS)及语音智能体(voice agent)API 接口。 - 安全验证尚未公开:截至目前,xAI 尚未公布误接受率(false-acceptance rates)、反欺骗(anti-spoofing)措施或红队测试(red-team)结果,其关于“无法被绕过”的安全主张尚未经外部研究人员独立验证。
详细说明:
xAI 于 5 月 2 日正式推出 Custom Voices 功能。用户可通过 xAI 控制台录制约一分钟的自然语音,系统在两分钟内即可生成可用于生产环境的个性化语音模型。该模型可无缝接入 Grok 的文本转语音(TTS)和语音智能体 API,且无需额外费用。激活过程需经过双重验证流程,xAI 称此举旨在彻底杜绝在未获本人参与的情况下克隆他人声音的可能性。
Custom Voices 对 xAI 控制台用户完全免费,并与现有涵盖 28 种语言、超过 80 种预设语音的库并列部署。所有语音(包括克隆语音与预设语音)均可通过统一的 TTS 和语音智能体端点调用。该功能随 Grok 4.3 版本一同发布,xAI 将其定位为高性价比方案,同时搭配更快的语音处理栈。值得注意的是,当前语音克隆市场竞争激烈,多家竞品已宣称支持更短的输入语音时长阈值。
Custom Voices 的克隆与验证机制
克隆流程始于用户在 xAI 控制台录制的简短语音片段。仅需约一分钟的自然说话内容,系统即可构建个性化语音模型;一旦提交样本,克隆模型通常在两分钟内就绪。对于已将 Grok 语音功能集成至产品中的开发者,可直接通过原有端点调用克隆语音,无需新增集成路径或凭证体系。切换至个人克隆语音仅需更改路由配置——即在相同请求结构中替换语音标识符(voice identifier),无需重构代码。
> 语音克隆现已通过 xAI API 上线! > 不到 2 分钟即可创建专属语音,或从覆盖 28 种语言的 80+ 预设语音库中选择,为您的语音智能体、有声书、游戏角色等赋予个性化声音。 > https://t.co/EjxjXssQtd > — xAI (@xai) 2026 年 5 月 1 日
激活过程采用双重验证机制: 第一步,用户需大声朗读系统生成的动态口令(passphrase),xAI 的自动语音识别(STT)引擎将实时转录并比对内容,以确认用户在场且明确授权; 第二步,系统将比对口令录音与完整采样录音中的说话人嵌入向量(sp
来源:winbuzzer.com
