技术进展

谷歌发布Gemma 4 12B模型,无编码器设计突破多模态处理

Heooo 06月05日00时00分 3 阅读

「谷歌推出Gemma 4 12B多模态模型,无需传统编码器即可直接处理视觉与音频数据,仅需16GB显存即可在本地运行,性能接近更大规模模型。」

谷歌近日正式发布了其最新的统一多模态模型——Gemma 4 12B。这款模型拥有12亿个参数,最大的创新在于取消了传统多模态模型中必需的编码器组件,能够直接处理视觉和音频数据。这一设计显著降低了计算复杂度,使得模型可以在仅需16GB显存或统一内存的消费级硬件上运行,用户甚至可以在高端笔记本电脑上本地运行,无需依赖云端计算资源。

传统多模态模型通常需要将图像和声音通过独立的视觉和音频编码器进行转换,而Gemma 4 12B采用了一种轻量级的嵌入层来简化视觉输入的处理。它仅需进行一次矩阵乘法、位置嵌入和归一化操作,即可完成视觉特征提取。对于音频信号,模型则将其直接投影到文本token的维度空间,省去了音频编码器的需求。这种无编码器的设计使得Gemma 4 12B在推理时的计算步骤大幅减少,模型体积更加精简,效率显著提升。

在性能表现方面,Gemma 4 12B接近谷歌更大的26B MoE(混合专家)模型的水平。在多项基准测试中,它展现出了卓越的多步推理能力和代理工作流能力。此外,该模型还配备了Multi-Token Prediction(MTP)drafters,能够同时预测多个token,从而进一步加快推理速度。截至目前,Gemma 4系列的累计下载量已经突破了1.5亿次,显示出开发者社区对该开源模型的热烈反响。

Gemma 4 12B采用Apache 2.0许可证进行开源,权重文件已在Hugging Face和Kaggle等平台上线。它支持多种推理框架,包括LM Studio、Ollama、MLX、SGLang和vLLM等。谷歌自家的AI Edge Gallery也为端侧部署提供了支持,开发者可以通过Google Cloud的Model Garden、Cloud Run和GKE等服务进行大规模的生产环境部署。这一系列举措使得Gemma 4 12B在开发者生态中获得了广泛关注,为多模态AI应用的本地化部署提供了新的可能。

# 谷歌 # Gemma 4 12B # 多模态模型 # 无编码器 # 开源

来源:Heooo AI工具导航