10步优化逾越强化学习，仅需1条未标注数据！后训练强势破局

新智元报道

编辑：LRS

【新智元导读】无监督的熵最小化（EM）要领仅需一条未标注数据和约10步优化，就能显著提升大模型在推理任务上的体现，甚至逾越依赖大宗数据和庞大奖励机制的强化学习（RL）。EM通过优化模型的预测漫衍，增强其对正确谜底的置信度，为大模型后训练提供了一种更高效简洁的新思路。

在具备强大的通用性能之后，当下大模型的研究偏向已经转向了「如何解决特定且庞大的推理任务」，好比数学问题、剖析物理现象或是构建编程逻辑。

要想抵达更高的性能，除了海量文本的预训练之外，往往还需要进一步的后训练。

主流后训练要领是接纳强化学习（RL），特别是结合可验证奖励的强化学习（RLVR）。

虽然基于RL的微调可以显著提升模型性能，但其十分依赖大规模、高质量的标注数据，其训练效果也取决于开发人员设计的庞大奖励函数，需要专家知识来最大化优势信号并避免模型「奖励作弊」。

别的，许多常用的RL算法（如PPO）需要特另外奖励模型，不但增加了算法庞大性，多训练办法和漫长的采样历程也会大幅提升盘算开销。

最近，Ubiquant研究团队提出一项LLM后训练的突破性研究，用13,440组大模型训练实验比照证明了一件事：

使用使用无监督要领「单样本熵最小化」（One-shot Entropy Minimization, 简称One-shot EM），仅需一条未标注样本和约10步优化，即可在推理任务上抵达甚至逾越依赖成千上万条数据和精心设计的奖励机制的RL要领的效果。

论文链接：https://www.notion.so/One-shot-Entropy-Minimization-202606db813b80639773f850f39246a5

EM的焦点理念是无需任何标注数据或外部监督来训练模型，仅依赖模型自身预测漫衍的熵（entropy）进行优化。

其有效性基于一个要害假设和一个简单直觉：如果一个模型自己足够有能力，那么当它对其预测结果更「自信」时，也更有可能是正确的。

具体来说，EM训练模型将其概率质量更多地集中在其最自信的输出上，即正确谜底通常比过失谜底具有更低的熵值。

通过优化目标来降低模型生成序列的熵，EM可以促使模型变得越发「自信」，从而强化其在预训练阶段已经获得的能力。

研究人员在论文中深入剖析了one-shot EM的有效性，发明其与强化学习具有相似的焦点特性，但从logits偏移角度来看，其对模型行为的引导偏向相反。

广泛实验标明，「温度」是影响EM训练和推理体现的要害因素，且在推理阶段与强化学习泛起相反趋势。

EM实质上更像是一种「漫衍塑形工具」，而非古板的学习要领。

熵最小化

具体来说，熵最小化要领的焦点公式为：

设体现一个预训练自回归语言模型pθ的词汇表，该模型由参数θ界说。

给定一个输入提示x（例如一个问题或问题描述），模型凭据其目今战略自回归地生成一个响应序列 y=(y1,y2,…,yT)，其中T是生成序列的长度。焦点思想是通过在每一步生成时最小化标记级别的熵，来减少模型对其自身预测的不确定性。

时间步t的条件熵界说为：

单个输入x的总体EM损失由以下公式给出：

简单而言，该损失函数勉励模型提高对自身预测的信心，无需依赖外部监督信号或奖励函数。

由于其完全依赖于模型自己而非外部信号，和预训练目标完全兼容，在有效简化优化历程的同时可能带来潜在关于模型内一致性的破坏。

只用一条样本就足够！

熵最小化（EM）的乐成依赖于「模型的预测不确定性」可以作为「有意义的训练信号」。

研究人员接纳了一种基于「模型体现方差」的样本筛选要领，来选择更具有信息量的输入提示：通过盘算模型多次生成结果的准确性方差，挑选模型体现不稳定的样本进行训练。

这种方差量化了模型对给定输入的预测纷歧致性：低方差意味着要么对正确性有高度信心（接近完美的乐成），要么对失败有高度信心（完全过失）。

相反，体现方差大的样本更能有效驱动模型降低熵值、明确决策界限，这也是为何只用一条高质量样本，就能快速推动模型的推理性能。

研究人员使用的唯一一条样本如下：

Problem: The pressure P exerted by wind on a sail varies jointly as the area A of the sail and the cube of the wind’s velocity V. When the velocity is 8 miles per hour, the pressure on a sail of 2 square feet is 4 pounds. Find the wind velocity when the pressure on 4 square feet of sail is 32 pounds.

Solution: 12.8

以小广博，性能逾越RL

研究人员在多个数学推理任务上测试了熵最小化（EM）的效果，结果显示，仅一条样本、10步训练，EM要领即大幅提高了Qwen2.5-Math-7B的性能：

MATH500测试集：准确率从53%提升到78.8%，提升25.8个百分点；

Minerva Math测试集：准确率从11%提升到35.3%，提升24.3个百分点；

AMC23测试集：准确率从44.1%提升到70.3%，提升26.2个百分点。

纵然只使用一个样本和少少的训练办法（仅仅10步），EM要领极大地缩小了Qwen2.5-Math-7B与Prime-Zero-7B和RLVR-GRPO等先进的基于RL的模型之间的差别。

特别是在AMC23基准测试中，经过EM增强的Qwen2.5-Math-7B抵达了具有竞争力的70.3分，迫近领先的RL模型这些结果清晰地标明，熵最小化（EM），尽管比典范的强化学习要领更简单、数据效率更高，但在增强基础语言模型在数学推理任务上的性能方面，具有巨大的潜力。

那么为什么熵最小化能这么有效果呢？熵在模型的训练和推理历程中起到什么样的作用呢？

EM vs.RL：置信度与Logits偏移

大型语言模型在生成每个token时，会先爆发一组未经归一化的分数Logits，随后通过Softmax函数转换为概率漫衍，决定了下一个token的选择。

因此，Logits的漫衍形态直接反应了模型对其预测的「置信度」和对差别token的偏好。

通过对模型Logits漫衍的深入剖析发明，熵最小化（EM）和强化学习（RL）对模型内部置信度的影响偏向截然相反。

EM：向右偏移，强化自身自信

研究标明，经过EM训练的模型，其Logits漫衍会显著地向右偏移，意味着模型在生成历程中，会重复强化自身的预测置信度。

模型将更多的概率质量集中在少数它认为「确定」的token上，使得原本高概率的区域进一步向高分区间扩展。

直观来说，这让模型对其最看好的谜底变得越发「自信」。

在生成和采样时，这种向右的Logits偏移是有益的，增加了高概率的候选token数量，扩展了模型能够遵循的「高概率路径」，从而潜在地增强了模型的整体生成能力。

实验中，EM 训练后的模型在评估时体现出与采样温度的相反趋势：随着温度升高，性能下降。

可以用贪婪解码（即总是选择概率最高的token）来解释——EM训练将概率质量高度集中在少数确定性token上，贪婪解码在这种漫衍下变得很是有效。

RL：向左偏移，受真实信号引导

与EM差别，经过RL训练的模型则体现出Logits漫衍向左偏移的趋势。

研究人员推测，这是受到训练历程中「真实」（ground-truth）信号的影响。

RL通过外部奖励函数来调解模型的行为，会处分那些模型预测概率很高但与地面真实不符的token

通过对这些高概率但不正确的token进行降权（reranking），RL降低了其排序位置，从而导致整体Logits漫衍向左偏移。

RL训练后，纵然经过reranking，这些原本低概率的token往往只占据概率漫衍中的中间位置，需要更高的采样温度才华被选中。

因此，RL训练的模型体现出与EM相反的趋势：性能随着采样温度的升高而提升。

虽然RL的目标是提升模型性能，但其导致的Logits左移被认为对大型语言模型的生成历程有害，减少了采样时的高概率路径数量，可能会削弱模型的整体性能。

Logits偏移的差别，可以通太过析Logits漫衍的偏度（Skewness）进行量化。

EM训练显著提高了Logits漫衍的偏度，泛起右偏；而RL训练则显著降低了偏度，甚至导致左偏。

纵然在EM后再进行RL训练，Logits漫衍的偏度也会从EM后的高值有所下降，遵循RL的趋势，其差别和塑造了EM和RL完全差别的推理采样战略。

在评估阶段，随着采样温度的升高，EM模型在四个数学推理基准测试上的平均体现连续下降。

EM 更像是一个漫衍塑造工具（distribution shaping tool），通过强化模型自身的内在一致性来提升置信度，从而重塑了现有知识的漫衍。

「太过自信」的陷阱与随机性

研究结果也揭示了其高效性背后隐藏的「太过自信」现象。

训练初期，EM逊ю失迅速下降，模型的数学推理性能也随之提升然而，约莫在训练进行到10步左右时，模型的性能抵达了巅峰。

令人意外的是，纵然EM逊ю失继续下降，模型的数学推理性能反而开始下降。

这种「太过自信」现象可能是由于连续的EM训练太过放大了模型在推理历程中对其自身生成 token 的置信度。

连续的EM训练可能会太过强化模型已有的先验偏差，导致输出结果太过集中于狭窄、太过自信的 token 漫衍，从而加剧算法偏差并导致输出显著偏离正确路径，最终损害了模型的实际推理性能。

熵最小化的不稳定性和太过自信的损害也体现在训练时的温度上。

经过EM训练的模型在四个数学推理基准上的平均性能随着生成温度的升高总体泛起上升趋势。

平均性能的最大值最初增加，随后在温度约为0.5时开始下降。较高的温度带来更好的平均推理能力，而适中的温度（如0.5）则导致更大的性能波动，从而为更高的峰值性能创立了时机。

EM训练同时展现出显著的随机性，即便设置完全相同，四个数学推理基准测试的平均得分也会因种子差别而相差高达两倍。

EM适合哪些场景？

研究标明，熵最小化（EM）尤其适合以下三种场景。

尚未进行大宗RL调优的基础模型或仅经过 SFT 的模型

研究人员在多个差别的基础模型上评估了one-shot EM的效果，结果标明，仅通过单个样本和少少的训练步数，EM 能够连续且显著地提升这些模型在数学推理基准测试上的性能。

然而，当应用于已经过大宗RL广泛微调的模型（如 SimpleRL-Zoo）时，One-shot EM反而可能导致性能下降，与在RL之后应用EM可能锁定狭窄、太过自信的输出模式并损害性能的发明一致。

需要快速安排、没有富足标注数据或资源有限的场景

EM的焦点优势在于其极高的效率和对数据的极低需求，研究发明，One-shotEM实际上比 Multi-shotEM体现出更好的性能和更强的泛化能力。

尽管Multi-shot使用了更多的样本，但One-shot EM通过单个样本实现了更稳定和细致的优化，有效减少了样本偏差并缩小了输出方差，进一步强化了EM在数据极端稀缺场景下的吸引力。

无价钱能力增强

熵最小化（EM）可以作为现有后训练范式的有力增补甚至起点，将EM应用在RL之前能够带来有效增益，使其成为RL的有效「启用基础」。

EM通过其奇特的Logits右偏移效应提升模型的自信度，增强模型的推理能力，并可能增进后续RL训练的更快收敛和更稳定优化。

关于已经深度调优过的RL模型，再使用EM反而可能带来性能的下降。

行业前景与未来研究

One-shot EM的乐成，不但在于其惊人的数据和盘算效率，还在于它为LLM后训练提供了一种完全无监督的、可落地的替代计划，不需要人工标注数据，不需要构建庞大的奖励模型，极大地降低了后训练的门槛和本钱。

这项研究同样为未来的探索翻开了辽阔的空间：

训练稳定性与鲁棒性

One-shot EM虽然高效，但也陪同超参数敏感性和一定的训练不稳定性。

研究发明，连续的EM训练可能会导致模型「太过自信」，反而损害性能。

未来的事情需要探索早停标准或自适应调理机制，以及减少训练的随机性，以进一步稳定和提升EM的效果。

泛化能力与跨领域应用

EM在数学推理任务上体现精彩，但能否泛化到对话、摘要、代码生成等其他领域，还需要进一步的实验验证。

同时，目今EM在Token级别操作，未来的研究可以探索在序列或语义单位上应用结构化熵，或引入任务特定先验知识和自适应熵正则化，以释放更多潜力。

与现有技术的融合

EM作为一种漫衍塑造工具，与SFT、RLHF等现有后训练技术看法上正交。

研究发明，在RL之前应用EM可以带来有益的对数漫衍偏移，未来的事情可以系统地研究差别的EM与RL结合的时间表、课程战略及其相互作用，探索构建更强大混淆要领的可能性。

EM甚至可以作为SFT或RLHF历程中的一种正则化战略，或作为现有模型的「信心压缩」层。

置信度校准的深入研究

研究结果体现，EM通过强化高概率推理路径来增强模型的置信度，标明EM可能是一种轻量级的信心校准要领。未来的研究需要开发更精确的评估协议来量化EM的校准效应，深入理解其背后的机制。

参考资料：

https://www.notion.so/One-shot-Entropy-Minimization-202606db813b80639773f850f39246a5?source=copy_link

《69免费看片视频》，《w3u7903ejky2ywls》

少妇成熟A片无码专区漫画

“学生裸体❌开腿真人”

女性与骡子交酡全过程

……

06月06日

“偷玩朋友丰满人妻好紧”霸哥到底开没开挂？

↓↓↓

外交部副部长孙卫东出席中日韩高官会，是TYLOO官宣字母哥加入

06月06日，全国青少年U系列攀岩总决赛举行 507名运动员参赛，JMComic.2.0回家地址，男人搞母犬在线观看免费，www🔞裸玉足.com久久久，碧蓝档案花子裸体❌禁图

06月06日，中国红红西凤酒产品设计荣获第七届中华设计奖“杰出贡献奖”，二次元美女泳装图集，西施cos 乳液，闺蜜gm065最新版本更新内容分享，FreePorno💋dvd

06月06日，四川成都：文殊院香甜可口的腊八粥吸引民众，免费看黄片，免费无遮挡🔞直接看，女同被❌c🐻扒衣服，19➕韩国主播免费观看

06月06日，关注孩子手足口等部位症状发现异常及时就诊，杨超越裸爱被❌视频无码，操比456，《好好疼爱里面》动漫，男生露出🐔🐔给别人摸

06月06日，零碳科技赋能乡村振兴 “下党零碳示范基地”在福建寿宁落成，女人与拘做受XXXXⅩ视频，❤网曝吃瓜黑料泄密在线一二，梅花十三被❌🐻黄漫扒衣服，精品麻豆剧传媒AV国产九九九

06月06日，中国驻挪威大使馆提醒中国游客注意旅行安全，小舞裸体❌开腿露出桃子，黄漫❌18禁动漫网站下载，人妻❌❌奶头❌❌裸体视频，欧美老女人乱伦

06月06日，赛场内外，青春闪亮（奥运观澜），成人亚洲A片V一区二区三区蜜月，㊙️羞羞视频免费看网站，China猛男Gay体育生video，动漫小舞露小奶头❌

06月06日，周末做手工、用视频“写日记”……小网民的朋友圈喜欢晒点啥？，爸爸吃凝儿的下面，免费看60分钟黄🟡色视频日本，12绂侌煃嗮煃戰煍炩潓鉂屸潓，美女岁生裸体㊙️无遮挡网站

监制：邓金木

策划：赖晗

主创：唐征宇林箴贺陈佛烘颜亦阳陈林韵

编辑：王家菁、段圣祺

凯发天生赢家一触即发首页

下载APP

全部

10步优化逾越强化学习，仅需1条未标注数据！后训练强势破局

热门视频

凯发天生赢家一触即发首页

下载APP

全部

10步优化逾越强化学习，仅需1条未标注数据！后训练强势破局

热门视频

10步优化逾越强化学习，仅需1条未标注数据！后训练强势破局