大语言模型逐字“串行”写字的时代正被挑战。谷歌(Google)昨日发布实验性模型DiffusionGemma,抛弃了当前主流的自回归生成方式,转而用扩散方法一次性生成并反复精炼整个文本块。在消费级显卡上,它能跑出每秒超700个token的速度,比传统方法快了四倍,直接把低延迟文本生成拉到了新台阶。
在传统模型中,文字像打字机一样从左到右逐个蹦出,这个过程中GPU的大量算力经常处于等待状态。DiffusionGemma的思路截然不同:它每次前向传播同时生成256个token的文本块,然后通过多轮“扩散”迭代对这个块进行精细打磨。谷歌把这种差异比作从打字机进化到印刷机——不再是生成一个字才轮到下一个字,而是整页内容同步成型。

这种并行解码带来的直接好处是,模型不再受限于内存带宽,而是把压力转移到计算性能上,让现代GPU做本地推理时总算能“吃饱”。根据谷歌给出的数据,DiffusionGemma在NVIDIA H100上输出速度超1000 token/秒,在RTX 5090上也超过700 token/秒。对于那些需要秒级响应的场景,比如实时编辑、快速内容迭代、代码填充,低延迟比极致质量更关键。
扩散架构还附赠了一个能力:双向注意力。因为全文本块一起生成,每个token都能关注上下文中的所有其他位置,这让模型在处理数独求解、代码补全、数学公式、生物序列这类需要“后文影响前文”的任务时,天然更有优势。谷歌在演示中就用微调后的DiffusionGemma解了数独,此类任务对传统单向模型来说一直比较棘手。
模型本身采用26B参数的混合专家架构,但推理时只激活3.8B参数,量化后显存占用约18GB,这让它可以在高端消费级显卡上运行。它还带有一个迭代自校正机制:在精炼文本块的过程中,系统会评估整体内容并修正早期错误。谷歌也明确表示,DiffusionGemma优先追求的是速度,生产环境中若更看重输出质量,标准Gemma 4仍是首选。
业内人士指出,扩散模型在图像生成领域已大获成功,但在文本生成上一直是前沿探索方向。谷歌这次的实验性模型选择Apache 2.0协议开放,已上架Hugging Face,并支持MLX、vLLM、Transformers、NVIDIA NeMo等工具部署。对于本地AI应用开发者和需要低延迟交互的产品团队,这可能是一个值得跟进的新选项。
48 0
登陆后参与评论
2026-06-12 08:48:58
2026-06-10 09:24:40
2026-06-10 09:16:59
2026-06-08 08:34:00
2026-06-05 09:10:08
2026-06-05 08:53:51
2026-06-04 09:05:24
2026-06-03 09:12:25
2026-06-03 09:07:52
2026-06-03 09:00:13
2026-06-03 08:31:54
2026-06-02 09:53:39