腾讯AI实验室开源70亿参数端到端语音语言模型Covo-Audio,支持实时音频对话与推理。该模型采用四大核心组件:Whisper-large-v3音频编码器、专用音频适配器、Qwen2.5-7B-Base LLM主干及WavLM-based分词器与Flow-Matching解码器,实现高保真语音重建。其创新点在于“分层三模态交错”机制,融合连续声学特征、离散语音标记与文本,提升对齐精度;并提出“
编辑精选
智能体AI 技术 人工智能 语言模型 语音语言模型 新发布 声音 员工 未分类 语音AI
腾讯AI实验室开源Covo-Audio:一款70亿参数的端到端语音语言模型及推理流水线,支持实时音频对话与推理
作者:Michal Sutter 日期:2026年3月26日
腾讯AI实验室已正式发布 Covo-Audio——一款70亿参数的端到端大型音频语言模型(Large Audio Language Model, LALM)。该模型通过统一的单一体系架构,直接处理连续音频输入并生成音频输出,实现了语音处理与语言理解能力的深度融合。
系统架构 Covo-Audio框架由四大核心组件构成,旨在实现跨模态的无缝交互:
- 音频编码器(Audio Encoder):采用Whisper-large-v3作为主编码器,因其具备优异的抗背景噪声与多语种口音鲁棒性;该模块以50 Hz的帧率运行。 - 音频适配器(Audio Adapter):为连接编码器与大语言模型(LLM),设计了一种专用适配器,包含三个下采样模块,结合线性层与卷积层,将帧率从50 Hz降至6.25 Hz。 - LLM主干网络(LLM Backbone):基于Qwen2.5-7B-Base构建,并针对连续声学特征与文本标记交错序列进行了定制化适配。 - 语音分词器与解码器(Speech Tokenizer and Decoder):分词器基于WavLM-large,采用16,384个码本大小,在25 Hz频率下生成离散语音标记;解码器则采用基于Flow-Matching(FM)的框架与BigVGAN声码器,重建高保真24 kHz波形。
[论文链接](https://arxiv.org/pdf/2602.09823)
分层三模态交错机制 本研究的核心贡献之一是提出 分层三模态交错(Hierarchical Tri-modal Speech-Text Interleaving) 策略。与传统仅在词或字符层面操作的方法不同,该框架将连续声学特征($a_c$)、离散语音标记($a_d$)与自然语言文本($t$)进行对齐整合。
模型采用两种主要模式: - 顺序交错(Sequential Interleaving):$a_c \rightarrow t \rightarrow a_d$ —— 连续声学特征、文本与离散标记按序构成链式结构; - 并行融合(Parallel Integration):$a_c \rightarrow t \mid a_d$ —— 连续特征与耦合的“文本–离散”单元并行对齐。
其中,“分层”特性确保了结构一致性:在短粒度层面采用短语级交错以实现精细对齐,而在长句级层面则采用句子级交错以维持长时语音中全局语义的完整性。整个训练过程采用了双阶段预训练流程,共处理约2万亿标记(2T tokens)。
智能与说话人解耦策略 为降低构建大规模特定说话人对话数据集的成本,研究团队提出了 智能-说话人解耦(Intelligence-Speaker Decoupling) 策略。该方法将对话中的语义智能与语音表现分离,从而支持灵活的语音风格定制与个性化语音合成。
来源:
