技术进展

谷歌发布Gemma 4 12B模型，无编码器设计突破多模态处理

Heooo 06月05日00时00分 30 阅读

「谷歌推出Gemma 4 12B多模态模型，无需传统编码器即可直接处理视觉与音频数据，仅需16GB显存即可在本地运行，性能接近更大规模模型。」

谷歌近日正式发布了其最新的统一多模态模型——Gemma 4 12B。这款模型拥有12亿个参数，最大的创新在于取消了传统多模态模型中必需的编码器组件，能够直接处理视觉和音频数据。这一设计显著降低了计算复杂度，使得模型可以在仅需16GB显存或统一内存的消费级硬件上运行，用户甚至可以在高端笔记本电脑上本地运行，无需依赖云端计算资源。

传统多模态模型通常需要将图像和声音通过独立的视觉和音频编码器进行转换，而Gemma 4 12B采用了一种轻量级的嵌入层来简化视觉输入的处理。它仅需进行一次矩阵乘法、位置嵌入和归一化操作，即可完成视觉特征提取。对于音频信号，模型则将其直接投影到文本token的维度空间，省去了音频编码器的需求。这种无编码器的设计使得Gemma 4 12B在推理时的计算步骤大幅减少，模型体积更加精简，效率显著提升。

在性能表现方面，Gemma 4 12B接近谷歌更大的26B MoE（混合专家）模型的水平。在多项基准测试中，它展现出了卓越的多步推理能力和代理工作流能力。此外，该模型还配备了Multi-Token Prediction（MTP）drafters，能够同时预测多个token，从而进一步加快推理速度。截至目前，Gemma 4系列的累计下载量已经突破了1.5亿次，显示出开发者社区对该开源模型的热烈反响。

Gemma 4 12B采用Apache 2.0许可证进行开源，权重文件已在Hugging Face和Kaggle等平台上线。它支持多种推理框架，包括LM Studio、Ollama、MLX、SGLang和vLLM等。谷歌自家的AI Edge Gallery也为端侧部署提供了支持，开发者可以通过Google Cloud的Model Garden、Cloud Run和GKE等服务进行大规模的生产环境部署。这一系列举措使得Gemma 4 12B在开发者生态中获得了广泛关注，为多模态AI应用的本地化部署提供了新的可能。

# 谷歌 # Gemma 4 12B # 多模态模型 # 无编码器 # 开源

来源：Heooo AI工具导航

热门工具

起号兽

# 生产力工具

起号兽

起号兽，你的AI短视频运营助手。智能规划内容、生成脚本、指导拍摄、优化发布，一站式帮你打造个人IP。支持抖音、快手、小红书、视频号多平台运营。

# 生产力工具访问官网

豆包

# 对话机器人

豆包

豆包是你的 AI 聊天智能对话问答助手，写作文案翻译编程全能工具。豆包为你答疑解惑，提供灵感，辅助创作，也可以和你畅聊任何你感兴趣的话题。

# 对话机器人访问官网

巨量创意（字节跳动）

# 视频生成

巨量创意（字节跳动）

抖音/巨量引擎官方AI创意平台，支持图文/视频广告自动生成、A/B测试与智能优化。

# 视频生成访问官网

TRAE - IDE

# 代码助手

TRAE - IDE

TRAE AI IDE | 国内首款 AI 原生集成开发环境，深度集成 Doubao-1.5-pro 与 DeepSeek 模型，支持中文自然语言一键生成完整代码框架，实时预览前端效果并智能修复 BUG。首创 Builder 模式实现需求到代码的自动化开发，兼容 Windows/macOS 系统，官网下载即用。

# 代码助手访问官网