技术进展

谷歌发布Gemma 4 12B，无编码器架构颠覆开源社区

Heooo 06月04日21时00分 22 阅读

「谷歌发布Gemma 4 12B多模态模型，采用颠覆性“无编码器”架构，仅需16GB内存即可本地运行，性能逼近更大规模模型。」

全球开源大模型生态迎来架构层面的颠覆性突破。谷歌正式发布了全新统一多模态模型Gemma 4 12B，该模型最大的创新在于彻底取消了传统多模态模型必不可少的“编码器”组件，在消费级硬件的本地部署与推理效率上实现了质的飞跃。

在传统的多模态架构中，模型通常需要依赖独立的视觉和音频编码器，将图像和声音信号转换为与文本Token相匹配的维度，这在无形中增加了模型的体积与计算复杂度。而Gemma 4 12B另辟蹊径，采用轻量级的嵌入层来直接处理视觉输入，仅需通过单次矩阵乘法、位置嵌入和归一化操作即可完成转换；同时，音频信号也被直接投影到文本Token的维度空间中。这种精简的“无编码器”设计，不仅大幅降低了计算步骤，更让整个模型变得极其轻量。

得益于底层架构的瘦身，这款拥有120亿参数的高性能模型被完美压缩在消费级硬件的运行门槛之内。开发者或普通用户仅需16GB的显存或统一内存，就能在高端笔记本电脑上直接本地部署并流畅运行。这意味着用户无需依赖昂贵的云端算力，便能离线处理复杂的视觉和音频任务。

在实际性能表现上，Gemma 4 12B的多步推理与代理工作流（Agent）能力已经逼近谷歌更大规模的26B MoE模型。为了进一步榨干性能，该模型还配备了多Token预测（MTP）技术，能够同时预测多个Token，从而显著加快了端侧的推理响应速度。

目前，Gemma 4 12B已采用友好的Apache 2.0许可证正式开源，模型权重也已同步上架。新模型获得了主流开发生态的全面力挺，不仅无缝支持Ollama、LM Studio、MLX、SGLang和vLLM等多种推理框架，谷歌自家的AI Edge Gallery也第一时间提供了端侧部署包。对于企业级生产环境，开发者还可以通过谷歌云的相关工具进行大规模集群部署。随着Gemma 4系列模型累计下载量突破1.5亿次，这一全新的架构无疑将引发开源开发者社区的新一轮技术狂欢。

# 谷歌 # Gemma 4 # 无编码器 # 开源 # 多模态

来源：Heooo AI工具导航

热门工具

起号兽

# 生产力工具

起号兽

起号兽，你的AI短视频运营助手。智能规划内容、生成脚本、指导拍摄、优化发布，一站式帮你打造个人IP。支持抖音、快手、小红书、视频号多平台运营。

# 生产力工具访问官网

豆包

# 对话机器人

豆包

豆包是你的 AI 聊天智能对话问答助手，写作文案翻译编程全能工具。豆包为你答疑解惑，提供灵感，辅助创作，也可以和你畅聊任何你感兴趣的话题。

# 对话机器人访问官网

巨量创意（字节跳动）

# 视频生成

巨量创意（字节跳动）

抖音/巨量引擎官方AI创意平台，支持图文/视频广告自动生成、A/B测试与智能优化。

# 视频生成访问官网

TRAE - IDE

# 代码助手

TRAE - IDE

TRAE AI IDE | 国内首款 AI 原生集成开发环境，深度集成 Doubao-1.5-pro 与 DeepSeek 模型，支持中文自然语言一键生成完整代码框架，实时预览前端效果并智能修复 BUG。首创 Builder 模式实现需求到代码的自动化开发，兼容 Windows/macOS 系统，官网下载即用。

# 代码助手访问官网