谷歌发布扩散模型DiffusionGemma，文本生成提速4倍

打印派 2026-06-11 08:54:50

大语言模型逐字“串行”写字的时代正被挑战。谷歌（Google）昨日发布实验性模型DiffusionGemma，抛弃了当前主流的自回归生成方式，转而用扩散方法一次性生成并反复精炼整个文本块。在消费级显卡上，它能跑出每秒超700个token的速度，比传统方法快了四倍，直接把低延迟文本生成拉到了新台阶。

在传统模型中，文字像打字机一样从左到右逐个蹦出，这个过程中GPU的大量算力经常处于等待状态。DiffusionGemma的思路截然不同：它每次前向传播同时生成256个token的文本块，然后通过多轮“扩散”迭代对这个块进行精细打磨。谷歌把这种差异比作从打字机进化到印刷机——不再是生成一个字才轮到下一个字，而是整页内容同步成型。

这种并行解码带来的直接好处是，模型不再受限于内存带宽，而是把压力转移到计算性能上，让现代GPU做本地推理时总算能“吃饱”。根据谷歌给出的数据，DiffusionGemma在NVIDIA H100上输出速度超1000 token/秒，在RTX 5090上也超过700 token/秒。对于那些需要秒级响应的场景，比如实时编辑、快速内容迭代、代码填充，低延迟比极致质量更关键。

扩散架构还附赠了一个能力：双向注意力。因为全文本块一起生成，每个token都能关注上下文中的所有其他位置，这让模型在处理数独求解、代码补全、数学公式、生物序列这类需要“后文影响前文”的任务时，天然更有优势。谷歌在演示中就用微调后的DiffusionGemma解了数独，此类任务对传统单向模型来说一直比较棘手。

模型本身采用26B参数的混合专家架构，但推理时只激活3.8B参数，量化后显存占用约18GB，这让它可以在高端消费级显卡上运行。它还带有一个迭代自校正机制：在精炼文本块的过程中，系统会评估整体内容并修正早期错误。谷歌也明确表示，DiffusionGemma优先追求的是速度，生产环境中若更看重输出质量，标准Gemma 4仍是首选。

业内人士指出，扩散模型在图像生成领域已大获成功，但在文本生成上一直是前沿探索方向。谷歌这次的实验性模型选择Apache 2.0协议开放，已上架Hugging Face，并支持MLX、vLLM、Transformers、NVIDIA NeMo等工具部署。对于本地AI应用开发者和需要低延迟交互的产品团队，这可能是一个值得跟进的新选项。