在大语言模型(LLM)领域,推理效率是制约其实际应用的要害因素之一。谷歌 DeepMind 的 Gemini diffusion 曾以1400 tokens / 秒的生成速度震惊学界,展现了扩散模型在并行生成上的潜力。然而,开源扩散 LLM 却因缺乏 KV 缓存机制和并行解码质量衰退,实际推理速度恒久被自回归模型压制.
近日,NVIDIA 联合香港大学、MIT 等机构重磅推出Fast-dLLM,以无需训练的即插即用加速计划,实现了推理速度的突破!
论文:Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding项目地点:https://nvlabs.github.io/Fast-dLLM论文链接:http://arxiv.org/abs/2505.22618GitHub 链接:https://github.com/NVlabs/Fast-dLLM
通过立异的技术组合,在不依赖重新训练模型的前提下,该事情为扩散模型的推理加速带来了突破性进展。本文将结合具体技术细节与实验数据,解析其焦点优势。
一、 焦点技术
分块 KV 缓存与置信度感知并行解码
1. 分块 KV 缓存(Block-Wise KV Cache):激活重用率超 90% 的双向加速
古板扩散模型因双向注意力机制难以直接复用盘算结果,导致长序列推理效率低下。Fast-dLLM 提出分块 KV 缓存机制,通过以下设计实现高效盘算:
双向缓存战略:接纳 DualCache 同时缓存前缀(Prompt)和后缀(Masked Tokens)的注意力激活值(KV Cache),如图 1 (a)(b) 所示。在分块生成时,前序块的 KV 激活可直接复用于后续块,减少重复盘算。高相似度验证:实验标明,相邻推理办法的 KV 激活余弦相似度接近 1(图 2),证明缓存复用的可行性。例如,在 LLaDA 模型中,通过缓存可实现 90% 以上的激活重用,单步盘算量显著降低。
2. 置信度感知并行解码(Confidence-Aware Parallel Decoding)
并行解码虽能提升速度,但条件独立假设易破坏 token 依赖关系,比方嗣魅这个例子 The list of poker hands that consist of two English words are: _ _.。后续两个单词可以是 “high card,” “two pair,” “full house,” 或者是 “straight flush.”。值得注意的是,这两个单词之间保存关联。
然而,MDMs 中的多令牌预测历程首先为每个令牌生成一个概率漫衍,然后从这些漫衍中独立采样。这种独立采样可能导致不睬想的组合(如生成 “high house” 等无效组合)。Fast-dLLM 通过动态置信度筛选解决这一问题(所谓置信度,是指模型给 token 付与的概率巨细):
阈值激活战略:仅对置信度凌驾阈值(如≥0.9)的 token 进行并行解码,低置信度 token 留待后续办法处理。如图 3 所示,该战略可在包管生成质量的前提下,并行输出多个 token。理论证明:当 (n+1)?≤1 时(n 为并行解码 token 数,并且并行解码的 n 个 token 的置信度都大于 1-?),贪婪解码战略下并行解码与顺序解码结果一致,从数学层面确保了生成逻辑的连贯性。
3. 伪代码:分块 KV 缓存与置信度感知并行解码流程
以下是 Fast-dLLM 算法的焦点伪代码,结合了分块 KV 缓存以及置信度感知并行解码,无需训练就可以在现有的开源 Diffusion LLM(如 LLaDA、Dream)上即插即用进行推理加速。
二、 性能突破
速度与精度的均衡优化
1. 长文本生成:27.6 倍端到端加速
在 LLaDA 模型上,针对 1024 token 的长文本生成任务,Fast-dLLM 将单步延迟从 0.26 秒降至 0.09 秒,整体耗时从 266 秒压缩至 12 秒,实现 27.6 倍端到端加速。这一提升在代码生成、数学推理等长序列场景中尤为显著,例如 8-shot 提示的 GSM8K 任务中,加速后仍能坚持 76% 的准确率。
2. 精度坚持:损失 < 2% 的基准测试体现
在主流基准测试中,Fast-dLLM 的准确率损失控制在 2% 以内:
GSM8K(5-shot):LLaDA+Fast-dLLM 准确率为 78.5%,仅比基线低 0.8%,但吞吐量提升 8.1 倍(图 5)。HumanEval(代码生成):准确率达 44.5%,较基线提升 1.2%,同时吞吐量提升 3.7 倍。多模型兼容:在 LLaDA、Dream 等模型上均实现高效加速,验证了技术的通用性。
三、 应用价值
无需训练的即插即用计划
Fast-dLLM 的零训练本钱特性使其成为理想的推理优化工具,能够快速集成到现有的系统中。关于那些已经在使用扩散模型的企业和开发者来说,可以在不改变模型架构和训练流程的基础上,直接利用 Fast-dLLM 提升推理效率,缩短长文本生成耗时,为实际安排提供更可行的计划。
四、 总结与展望
Fast-dLLM 通太过块 KV 缓存与置信度感知并行解码的立异组合,实现了扩散模型推理效率的跨越式提升,同时坚持了生成质量的稳定性。其技术设计为非自回归生成模型提供了新的优化范式,有望推动扩散模型在实时交互、长文本生成等场景中的广泛应用。未来,随着模型规模的扩大和蒸馏技术的深化,Fast-dLLM 或将进一步缩小与自回归模型的性能差别,成为 LLM 推理加速的焦点计划之一。
《小乔裸乳被爆❌白浆图片》,《w3u7903ejky2ywls》🔞男生🍆❌男生🍑里91
“掀起女班长的裙子打光屁股”
furry狼人男同榨精网站
……
06月04日
“小舞扒胸露出奶头让人玩”2023年度十大“科学”流言
↓↓↓
06月04日,超130款新闻资讯鸿蒙原生应用搭载AI技术、意图框架、服务卡片等能力 完成上架,男男doi攻🌿的巨猛受受视频,欧美18🈲️色情福利小视频,开户猎手(破解版)_1.0.0.apk,老太做爰XXXⅩ性XXX
06月04日,第四届金剧奖在深圳举行 快手为“剧星梦想”提供舞台与空间,少司缘cos自慰裸体免费,各种姿势顶弄呻吟H漫画视频,16青少年裸体洗澡自慰小说,免费韩漫无遮羞嘿嘿漫画软件
06月04日,外媒关注多家国际机构上调中国经济增速预期,亚洲A片人獸交XXOO,原神琳妮特裸体❌污污网站,扒开❌狂揉❌羞羞中国,女S调教男m视频
06月04日|习近平总书记两会金句|校草被小混混脱裤玩j涩涩文|巨胸爆乳❌❌❌动漫下载|符玄白丝腿缠腰娇喘|黄⭐色⭐视⭐频
06月04日|建立专家库加强应急科普 青海完善地震灾害防范应对机制|戒尺打光屁股男㊙️网站|蒂法被❌❌爆乳触手|人妻猎人漫画免费观看韩漫驿站|孕交XXOO变态孕妇69
06月04日|最高检案管办负责人就2024年1月至6月全国检察机关主要办案数据答记者问|人妻 9 9人陰の亂倫视频|无人区高清电影免费|伽罗太华被X哭还|捆绑调教sm束缚……
06月04日,跟着总书记探寻中华文明丨汉风汉韵 源远流长,别揉我啊嗯软件在线观看,春丽裸体被❌羞羞动画,14萝夹腿自慰爽哭给我看小说,Hi漫画画免费读漫画下拉
06月04日,F1期间《中国车手周冠宇》上映,周冠宇个人商业价值几何,攻狂揉受胸吃奶男男,91精品无码性色Av,小舞用白丝脚帮我脚交,500短篇乱婬小说
06月04日|习近平出席法国总统马克龙举行的欢迎仪式|纲手被强❌漫画|男生把伸生女生里|www.sex118.com|鬼子暴行女兵电影免费播放
06月04日,广西举办创意导游大赛 演述精彩壮乡故事,男强动漫被❌到爽🔞流图片,av高潮喷水一区二区三区,♥禁漫天堂♥免费网站,美女挤奶㊙️无遮掩
06月04日,“全国模范检察官”潘非琼:公诉席上的忠诚卫士,茶茶红润脚底lvk,日本Av扶她系列,全黄裸体片西施,大胸女被c❎黄漫视频
06月04日,卖国者,虽远必究!6名在逃“港独”分子被撤销护照,བད་ཀི泡妞18视频,十八禁羞羞网站,裸体裸乳被🍑日本网站,全彩※ACG里番㡷全彩
06月04日|2024浙江·台湾合作周在杭州开幕|梅花十三和伍六七睡觉的场面|爱色AV|撅臀巴掌扇打白嫩嫩的屁股|极乐禁地
06月04日|泽连斯基:乌克兰一半的发电能力已不存在|杨幂ai换脸🔞视频在线观看|申鹤撅着白嫩光屁股被打|偷窥女性隐私㊙️黄www|将军,不可以!(限)暖冬笔趣阁免费阅读
06月04日|中国驻叙利亚大使馆紧急提醒在叙中国公民尽快回国或离境|网禁🈲拗女稀缺1300杭州|夸克咚咚资原|furry爽❌又黄❌3D免费|爸爸的贱母狗原著小说叫什么
金融反腐追踪:7月至少12人被查,全红婵卫冕冠军|高峰日产原油约2600吨 我国海上首个多层稠油热采开发项目投产|中国女人无套内谢|免费被❌到爽羞羞视频|国产乱人妻精品秘入口|被❌的流白浆翻白眼流口水
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺