谷歌开源扩散模型DiffusionGemma，本地推理提速4倍

谷歌近日发布公告，正式推出名为DiffusionGemma的全新开放AI模型。该模型基于文本扩散机制，与当前主流的大语言模型架构——自回归模型（如GPT、Gemini）不同，DiffusionGemma通过从噪声中逐步去噪的方式并行生成所有token，从而在本地低带宽计算环境下实现了显著的推理速度优势。据谷歌官方数据，在本地推理场景中，DiffusionGemma的速度相比同等条件下的自回归模型提升了4倍。

自回归模型按照从左到右的顺序逐个生成token，在云端批处理场景下效率较高，但本地推理时受限于内存带宽，存在计算资源浪费的问题。而扩散模型通过并行处理所有token，逐步优化整体输出质量，有效解决了这一瓶颈。DiffusionGemma在采样速度上达到了1479 tokens/秒，开销仅0.84秒，生成效率显著提升。此外，该模型还支持迭代优化，能够在生成过程中主动纠正错误，使输出更加稳定一致。

在开源方面，DiffusionGemma的能力与其他Gemma 4模型相当，但推理效率更高。模型采用Apache 2.0许可证开源，用户可以从Hugging Face下载模型权重，方便开发者进行二次开发和集成。这一举措进一步丰富了开源AI生态，为本地化部署和边缘计算提供了新的选择。

性能评测方面，DiffusionGemma在多个基准测试中表现出色。代码生成任务上，LiveCodeBench达到30.9%，BigCodeBench达到45.4%，HumanEval达到89.6%，与Gemini 2.0 Flash-Lite互有胜负。数学能力表现尤为亮眼，AIME 2025取得23.3%的成绩，超越了对比模型的20.0%，展现出扩散架构在推理任务上的潜力。不过，模型在部分基准上仍存在短板：科学推理GPQA Diamond仅40.4%，明显低于对比模型的56.5%；推理能力BIG-Bench Extra Hard为15.0%，同样落后于21.0%。这表明扩散模型在特定领域仍需进一步优化。

在硬件适配方面，英伟达官方博文指出，DiffusionGemma的扩散设计能够充分发挥英伟达GPU的Tensor Core并行计算能力。在单块H100 GPU上，模型达到每秒1000个token的生成速度；在DGX Spark上为每秒150个token；在DGX Station上可达每秒2000个token，约为同等条件下自回归模型的4倍。这种高效的并行处理能力，使得DiffusionGemma在本地和边缘设备上具有广阔的应用前景，尤其适合对延迟敏感的场景。