谷歌英伟达联合发布DiffusionGemma扩散语言模型
技术进展

谷歌英伟达联合发布DiffusionGemma扩散语言模型

Heooo 06月11日12时27分 2 阅读

「谷歌与英伟达联合开源DiffusionGemma,首次将扩散机制引入文本生成,实现并行输出256个标记,单卡推理速度提升4倍。」

谷歌与英伟达于近日联合发布了实验性开源语言模型DiffusionGemma,这一模型打破了传统大模型逐字生成的自回归范式,首次将图像AI领域成熟的扩散机制引入文本生成。该模型通过从随机噪声中进行多次迭代优化,能够一次性并行输出256个标记的词块,显著提升了生成效率。

在硬件效能方面,得益于英伟达的深度优化,DiffusionGemma在单GPU单用户模式下的运行速度比同类传统模型提升了近四倍。具体来说,在H100显卡上处理单条请求时,其输出速度可达每秒1000个标记;即使在RTX5090等高端消费级显卡上,也能突破每秒700个标记的生成速度。这一突破打破了内存带宽对GPU算力的制约,为AI推理的硬件适配提供了新的思路。

DiffusionGemma模型架构示意图

DiffusionGemma拥有260亿参数,依托混合专家(MoE)架构,单步激活参数仅为38亿,在保持强大能力的同时实现了高效计算。尽管在标准基准测试中,其文本生成质量与准确率略逊于传统的Gemma4系列模型,但其独特的“全块感知”能力打破了自回归模型只能向后推演的局限。由于所有标记在生成过程中可以相互引用,该模型在文本后补、代码填空、数独求解以及氨基酸序列等非线性、结构化数据处理任务中展现出显著优势。

目前,该模型权重已基于Apache2.0协议在Hugging Face开源,并全面兼容vLLM、MLX等主流推理框架。这一探索不仅为开发者提供了全新的工具,也为未来AI在复杂逻辑及非线性文本生成任务上的应用开辟了全新的技术路径。随着开源社区的进一步参与,DiffusionGemma有望推动语言模型在更多场景中的创新应用。

# 谷歌 # 英伟达 # DiffusionGemma # 开源模型 # 扩散机制 # 混合专家架构

来源:Heooo AI工具导航