谷歌推出Gemma 4开源AI模型，赋能终端设备。

# 物联网 # AI 安全 # 能源/电力

## Google 推出面向终端设备的 Gemma 4 开源 AI 模型系列

2026 年 4 月 7 日（星期二）作者：Mark Tarre，新闻主编

Google 今日正式推出 Gemma 4，一个全新的开源人工智能模型家族，进一步扩展其基于 Apache 2.0 许可证的开源模型生态。

该系列包含四种规格：Effective 2B、Effective 4B、26B 混合专家（MoE）模型以及31B 稠密模型。这些模型专为多种硬件平台设计，涵盖移动设备、笔记本电脑、开发者工作站以及专用加速器等。

据 Google 介绍，自第一代 Gemma 发布以来，累计下载量已突破 4 亿次，开发者基于此创建了超过 10 万个变体。此次发布的最新一代在推理能力、代码生成、多模态处理以及对更长上下文窗口的支持方面均实现了显著进步。

其中，大型模型可处理高达 256K tokens 的上下文长度，而面向边缘计算的小型模型则支持 128K tokens。所有模型均具备图像与视频处理能力；此外，E2B 和 E4B 模型还原生支持音频输入，用于语音识别与理解。

### 模型性能与定位

根据 Google 公布的数据，Gemma 4 中的 31B 模型目前在 Arena AI 文本排行榜上位列开源模型第三，26B 模型排名第六。这两款模型主要面向希望在可负担硬件上获得更强推理能力的研究人员与开发者。

Google 指出，未经量化的 bfloat16 版本的 26B 和 31B 模型可完整部署于单张 80GB NVIDIA H100 GPU 上。经过量化处理的版本则可在消费级 GPU 上运行，适用于本地场景，如代码助手与自动化工作流。

26B 混合专家模型在推理过程中仅激活其总参数中的 38 亿个，该设计旨在降低延迟。相比之下，31B 稠密模型则更侧重于追求更高输出质量，并作为微调的基础模型。

在小型端侧模型方面，E2B 和 E4B 专为智能手机、物联网设备及紧凑型计算平台打造。它们在设计上着重优化内存占用与电池续航，确保在包括智能手机、树莓派系统及 NVIDIA Jetson Orin Nano 在内的设备上实现完全离线、低延迟运行。

### 开源许可策略

Apache 2.0 许可证是本次发布的核心。该许可允许商业使用与修改，限制较少，有助于吸引希望保留对部署流程与数据处理控制权的企业与开发者。

Google 强调，这些模型旨在赋予开发者灵活部署的能力，既可用于本地数据中心，也可部署于云端环境。同时，这些模型通过了与 Google 专有系统相同的基础设施安全协议验证。

此次发布反映了当前开源权重 AI 模型的激烈竞争态势：各大厂商正努力在性能表现、硬件需求与本地部署便捷性之间寻求平衡。随着开发者对降低成本、减少延迟以及增强隐私敏感应用控制权的追求，能够在终端设备上运行的轻量级模型日益受到关注。

### 开发者导向

（