谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度飙27.6倍

在大语言模型（LLM）领域，推理效率是制约其实际应用的要害因素之一。谷歌 DeepMind 的 Gemini diffusion 曾以1400 tokens / 秒的生成速度震惊学界，展现了扩散模型在并行生成上的潜力。然而，开源扩散 LLM 却因缺乏 KV 缓存机制和并行解码质量衰退，实际推理速度恒久被自回归模型压制.

近日，NVIDIA 联合香港大学、MIT 等机构重磅推出Fast-dLLM，以无需训练的即插即用加速计划，实现了推理速度的突破！

论文：Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding项目地点：https://nvlabs.github.io/Fast-dLLM论文链接：http://arxiv.org/abs/2505.22618GitHub 链接：https://github.com/NVlabs/Fast-dLLM

通过立异的技术组合，在不依赖重新训练模型的前提下，该事情为扩散模型的推理加速带来了突破性进展。本文将结合具体技术细节与实验数据，解析其焦点优势。

一、焦点技术

分块 KV 缓存与置信度感知并行解码

1. 分块 KV 缓存（Block-Wise KV Cache）：激活重用率超 90% 的双向加速

古板扩散模型因双向注意力机制难以直接复用盘算结果，导致长序列推理效率低下。Fast-dLLM 提出分块 KV 缓存机制，通过以下设计实现高效盘算：

双向缓存战略：接纳 DualCache 同时缓存前缀（Prompt）和后缀（Masked Tokens）的注意力激活值（KV Cache），如图 1 (a)(b) 所示。在分块生成时，前序块的 KV 激活可直接复用于后续块，减少重复盘算。高相似度验证：实验标明，相邻推理办法的 KV 激活余弦相似度接近 1（图 2），证明缓存复用的可行性。例如，在 LLaDA 模型中，通过缓存可实现 90% 以上的激活重用，单步盘算量显著降低。

2. 置信度感知并行解码（Confidence-Aware Parallel Decoding）

并行解码虽能提升速度，但条件独立假设易破坏 token 依赖关系，比方嗣魅这个例子 The list of poker hands that consist of two English words are: _ _.。后续两个单词可以是 “high card,” “two pair,” “full house,” 或者是 “straight flush.”。值得注意的是，这两个单词之间保存关联。

然而，MDMs 中的多令牌预测历程首先为每个令牌生成一个概率漫衍，然后从这些漫衍中独立采样。这种独立采样可能导致不睬想的组合（如生成 “high house” 等无效组合）。Fast-dLLM 通过动态置信度筛选解决这一问题（所谓置信度，是指模型给 token 付与的概率巨细）：

阈值激活战略：仅对置信度凌驾阈值（如≥0.9）的 token 进行并行解码，低置信度 token 留待后续办法处理。如图 3 所示，该战略可在包管生成质量的前提下，并行输出多个 token。理论证明：当 (n+1)?≤1 时（n 为并行解码 token 数，并且并行解码的 n 个 token 的置信度都大于 1-?），贪婪解码战略下并行解码与顺序解码结果一致，从数学层面确保了生成逻辑的连贯性。

3. 伪代码：分块 KV 缓存与置信度感知并行解码流程

以下是 Fast-dLLM 算法的焦点伪代码，结合了分块 KV 缓存以及置信度感知并行解码，无需训练就可以在现有的开源 Diffusion LLM（如 LLaDA、Dream）上即插即用进行推理加速。

二、性能突破

速度与精度的均衡优化

1. 长文本生成：27.6 倍端到端加速

在 LLaDA 模型上，针对 1024 token 的长文本生成任务，Fast-dLLM 将单步延迟从 0.26 秒降至 0.09 秒，整体耗时从 266 秒压缩至 12 秒，实现 27.6 倍端到端加速。这一提升在代码生成、数学推理等长序列场景中尤为显著，例如 8-shot 提示的 GSM8K 任务中，加速后仍能坚持 76% 的准确率。

2. 精度坚持：损失 < 2% 的基准测试体现

在主流基准测试中，Fast-dLLM 的准确率损失控制在 2% 以内：

GSM8K（5-shot）：LLaDA+Fast-dLLM 准确率为 78.5%，仅比基线低 0.8%，但吞吐量提升 8.1 倍（图 5）。HumanEval（代码生成）：准确率达 44.5%，较基线提升 1.2%，同时吞吐量提升 3.7 倍。多模型兼容：在 LLaDA、Dream 等模型上均实现高效加速，验证了技术的通用性。

三、应用价值

无需训练的即插即用计划

Fast-dLLM 的零训练本钱特性使其成为理想的推理优化工具，能够快速集成到现有的系统中。关于那些已经在使用扩散模型的企业和开发者来说，可以在不改变模型架构和训练流程的基础上，直接利用 Fast-dLLM 提升推理效率，缩短长文本生成耗时，为实际安排提供更可行的计划。

四、总结与展望

Fast-dLLM 通太过块 KV 缓存与置信度感知并行解码的立异组合，实现了扩散模型推理效率的跨越式提升，同时坚持了生成质量的稳定性。其技术设计为非自回归生成模型提供了新的优化范式，有望推动扩散模型在实时交互、长文本生成等场景中的广泛应用。未来，随着模型规模的扩大和蒸馏技术的深化，Fast-dLLM 或将进一步缩小与自回归模型的性能差别，成为 LLM 推理加速的焦点计划之一。

《小乔裸乳被爆❌白浆图片》，《w3u7903ejky2ywls》

🔞男生🍆❌男生🍑里91

“掀起女班长的裙子打光屁股”

furry狼人男同榨精网站

……

06月04日

“小舞扒胸露出奶头让人玩”2023年度十大“科学”流言

↓↓↓