技术进展

谷歌开源扩散模型DiffusionGemma,本地推理提速4倍

Heooo 06月11日08时00分 3 阅读

「谷歌推出基于文本扩散的开放AI模型DiffusionGemma,在本地推理速度上比自回归模型提升4倍,采用Apache 2.0许可证开源。」

谷歌近日发布公告,正式推出名为DiffusionGemma的全新开放AI模型。该模型基于文本扩散机制,与当前主流的大语言模型架构——自回归模型(如GPT、Gemini)不同,DiffusionGemma通过从噪声中逐步去噪的方式并行生成所有token,从而在本地低带宽计算环境下实现了显著的推理速度优势。据谷歌官方数据,在本地推理场景中,DiffusionGemma的速度相比同等条件下的自回归模型提升了4倍。

自回归模型按照从左到右的顺序逐个生成token,在云端批处理场景下效率较高,但本地推理时受限于内存带宽,存在计算资源浪费的问题。而扩散模型通过并行处理所有token,逐步优化整体输出质量,有效解决了这一瓶颈。DiffusionGemma在采样速度上达到了1479 tokens/秒,开销仅0.84秒,生成效率显著提升。此外,该模型还支持迭代优化,能够在生成过程中主动纠正错误,使输出更加稳定一致。

在开源方面,DiffusionGemma的能力与其他Gemma 4模型相当,但推理效率更高。模型采用Apache 2.0许可证开源,用户可以从Hugging Face下载模型权重,方便开发者进行二次开发和集成。这一举措进一步丰富了开源AI生态,为本地化部署和边缘计算提供了新的选择。

性能评测方面,DiffusionGemma在多个基准测试中表现出色。代码生成任务上,LiveCodeBench达到30.9%,BigCodeBench达到45.4%,HumanEval达到89.6%,与Gemini 2.0 Flash-Lite互有胜负。数学能力表现尤为亮眼,AIME 2025取得23.3%的成绩,超越了对比模型的20.0%,展现出扩散架构在推理任务上的潜力。不过,模型在部分基准上仍存在短板:科学推理GPQA Diamond仅40.4%,明显低于对比模型的56.5%;推理能力BIG-Bench Extra Hard为15.0%,同样落后于21.0%。这表明扩散模型在特定领域仍需进一步优化。

在硬件适配方面,英伟达官方博文指出,DiffusionGemma的扩散设计能够充分发挥英伟达GPU的Tensor Core并行计算能力。在单块H100 GPU上,模型达到每秒1000个token的生成速度;在DGX Spark上为每秒150个token;在DGX Station上可达每秒2000个token,约为同等条件下自回归模型的4倍。这种高效的并行处理能力,使得DiffusionGemma在本地和边缘设备上具有广阔的应用前景,尤其适合对延迟敏感的场景。

# 谷歌 # DiffusionGemma # 文本扩散模型 # 开源 # 推理速度

来源:Heooo AI工具导航