最新资讯|国产女人与拘做受XXXXⅩXX_社会新闻

首页 >新闻 >社会新闻

10步优化逾越强化学习，仅需1条未标注数据！后训练强势破局

2025-06-05 22:27:01

来源：

猫眼影戏

作者：

王桂红

手机检察

　　猫眼影戏记者薛凯琪报道w3u7903ejky2ywls

新智元报道

编辑：LRS

【新智元导读】无监督的熵最小化（EM）要领仅需一条未标注数据和约10步优化，就能显著提升大模型在推理任务上的体现，甚至逾越依赖大宗数据和庞大奖励机制的强化学习（RL）。EM通过优化模型的预测漫衍，增强其对正确谜底的置信度，为大模型后训练提供了一种更高效简洁的新思路。

在具备强大的通用性能之后，当下大模型的研究偏向已经转向了「如何解决特定且庞大的推理任务」，好比数学问题、剖析物理现象或是构建编程逻辑。

要想抵达更高的性能，除了海量文本的预训练之外，往往还需要进一步的后训练。

主流后训练要领是接纳强化学习（RL），特别是结合可验证奖励的强化学习（RLVR）。

虽然基于RL的微调可以显著提升模型性能，但其十分依赖大规模、高质量的标注数据，其训练效果也取决于开发人员设计的庞大奖励函数，需要专家知识来最大化优势信号并避免模型「奖励作弊」。

别的，许多常用的RL算法（如PPO）需要特另外奖励模型，不但增加了算法庞大性，多训练办法和漫长的采样历程也会大幅提升盘算开销。

最近，Ubiquant研究团队提出一项LLM后训练的突破性研究，用13,440组大模型训练实验比照证明了一件事：

使用使用无监督要领「单样本熵最小化」（One-shot Entropy Minimization, 简称One-shot EM），仅需一条未标注样本和约10步优化，即可在推理任务上抵达甚至逾越依赖成千上万条数据和精心设计的奖励机制的RL要领的效果。

论文链接：https://www.notion.so/One-shot-Entropy-Minimization-202606db813b80639773f850f39246a5

EM的焦点理念是无需任何标注数据或外部监督来训练模型，仅依赖模型自身预测漫衍的熵（entropy）进行优化。

其有效性基于一个要害假设和一个简单直觉：如果一个模型自己足够有能力，那么当它对其预测结果更「自信」时，也更有可能是正确的。

具体来说，EM训练模型将其概率质量更多地集中在其最自信的输出上，即正确谜底通常比过失谜底具有更低的熵值。

通过优化目标来降低模型生成序列的熵，EM可以促使模型变得越发「自信」，从而强化其在预训练阶段已经获得的能力。

研究人员在论文中深入剖析了one-shot EM的有效性，发明其与强化学习具有相似的焦点特性，但从logits偏移角度来看，其对模型行为的引导偏向相反。

广泛实验标明，「温度」是影响EM训练和推理体现的要害因素，且在推理阶段与强化学习泛起相反趋势。

EM实质上更像是一种「漫衍塑形工具」，而非古板的学习要领。

熵最小化

具体来说，熵最小化要领的焦点公式为：

设体现一个预训练自回归语言模型pθ的词汇表，该模型由参数θ界说。

给定一个输入提示x（例如一个问题或问题描述），模型凭据其目今战略自回归地生成一个响应序列 y=(y1,y2,…,yT)，其中T是生成序列的长度。焦点思想是通过在每一步生成时最小化标记级别的熵，来减少模型对其自身预测的不确定性。

时间步t的条件熵界说为：

单个输入x的总体EM损失由以下公式给出：

简单而言，该损失函数勉励模型提高对自身预测的信心，无需依赖外部监督信号或奖励函数。

由于其完全依赖于模型自己而非外部信号，和预训练目标完全兼容，在有效简化优化历程的同时可能带来潜在关于模型内一致性的破坏。

只用一条样本就足够！

熵最小化（EM）的乐成依赖于「模型的预测不确定性」可以作为「有意义的训练信号」。

研究人员接纳了一种基于「模型体现方差」的样本筛选要领，来选择更具有信息量的输入提示：通过盘算模型多次生成结果的准确性方差，挑选模型体现不稳定的样本进行训练。

这种方差量化了模型对给定输入的预测纷歧致性：低方差意味着要么对正确性有高度信心（接近完美的乐成），要么对失败有高度信心（完全过失）。

相反，体现方差大的样本更能有效驱动模型降低熵值、明确决策界限，这也是为何只用一条高质量样本，就能快速推动模型的推理性能。

研究人员使用的唯一一条样本如下：

Problem: The pressure P exerted by wind on a sail varies jointly as the area A of the sail and the cube of the wind’s velocity V. When the velocity is 8 miles per hour, the pressure on a sail of 2 square feet is 4 pounds. Find the wind velocity when the pressure on 4 square feet of sail is 32 pounds.

Solution: 12.8

以小广博，性能逾越RL

研究人员在多个数学推理任务上测试了熵最小化（EM）的效果，结果显示，仅一条样本、10步训练，EM要领即大幅提高了Qwen2.5-Math-7B的性能：

MATH500测试集：准确率从53%提升到78.8%，提升25.8个百分点；

Minerva Math测试集：准确率从11%提升到35.3%，提升24.3个百分点；

AMC23测试集：准确率从44.1%提升到70.3%，提升26.2个百分点。

纵然只使用一个样本和少少的训练办法（仅仅10步），EM要领极大地缩小了Qwen2.5-Math-7B与Prime-Zero-7B和RLVR-GRPO等先进的基于RL的模型之间的差别。

特别是在AMC23基准测试中，经过EM增强的Qwen2.5-Math-7B抵达了具有竞争力的70.3分，迫近领先的RL模型这些结果清晰地标明，熵最小化（EM），尽管比典范的强化学习要领更简单、数据效率更高，但在增强基础语言模型在数学推理任务上的性能方面，具有巨大的潜力。

那么为什么熵最小化能这么有效果呢？熵在模型的训练和推理历程中起到什么样的作用呢？

EM vs.RL：置信度与Logits偏移

大型语言模型在生成每个token时，会先爆发一组未经归一化的分数Logits，随后通过Softmax函数转换为概率漫衍，决定了下一个token的选择。

因此，Logits的漫衍形态直接反应了模型对其预测的「置信度」和对差别token的偏好。

通过对模型Logits漫衍的深入剖析发明，熵最小化（EM）和强化学习（RL）对模型内部置信度的影响偏向截然相反。

EM：向右偏移，强化自身自信

研究标明，经过EM训练的模型，其Logits漫衍会显著地向右偏移，意味着模型在生成历程中，会重复强化自身的预测置信度。

模型将更多的概率质量集中在少数它认为「确定」的token上，使得原本高概率的区域进一步向高分区间扩展。

直观来说，这让模型对其最看好的谜底变得越发「自信」。

在生成和采样时，这种向右的Logits偏移是有益的，增加了高概率的候选token数量，扩展了模型能够遵循的「高概率路径」，从而潜在地增强了模型的整体生成能力。

实验中，EM 训练后的模型在评估时体现出与采样温度的相反趋势：随着温度升高，性能下降。

可以用贪婪解码（即总是选择概率最高的token）来解释——EM训练将概率质量高度集中在少数确定性token上，贪婪解码在这种漫衍下变得很是有效。

RL：向左偏移，受真实信号引导

与EM差别，经过RL训练的模型则体现出Logits漫衍向左偏移的趋势。

研究人员推测，这是受到训练历程中「真实」（ground-truth）信号的影响。

RL通过外部奖励函数来调解模型的行为，会处分那些模型预测概率很高但与地面真实不符的token

通过对这些高概率但不正确的token进行降权（reranking），RL降低了其排序位置，从而导致整体Logits漫衍向左偏移。

RL训练后，纵然经过reranking，这些原本低概率的token往往只占据概率漫衍中的中间位置，需要更高的采样温度才华被选中。

因此，RL训练的模型体现出与EM相反的趋势：性能随着采样温度的升高而提升。

虽然RL的目标是提升模型性能，但其导致的Logits左移被认为对大型语言模型的生成历程有害，减少了采样时的高概率路径数量，可能会削弱模型的整体性能。

Logits偏移的差别，可以通太过析Logits漫衍的偏度（Skewness）进行量化。

EM训练显著提高了Logits漫衍的偏度，泛起右偏；而RL训练则显著降低了偏度，甚至导致左偏。

纵然在EM后再进行RL训练，Logits漫衍的偏度也会从EM后的高值有所下降，遵循RL的趋势，其差别和塑造了EM和RL完全差别的推理采样战略。

在评估阶段，随着采样温度的升高，EM模型在四个数学推理基准测试上的平均体现连续下降。

EM 更像是一个漫衍塑造工具（distribution shaping tool），通过强化模型自身的内在一致性来提升置信度，从而重塑了现有知识的漫衍。

「太过自信」的陷阱与随机性

研究结果也揭示了其高效性背后隐藏的「太过自信」现象。

训练初期，EM逊ю失迅速下降，模型的数学推理性能也随之提升然而，约莫在训练进行到10步左右时，模型的性能抵达了巅峰。

令人意外的是，纵然EM逊ю失继续下降，模型的数学推理性能反而开始下降。

这种「太过自信」现象可能是由于连续的EM训练太过放大了模型在推理历程中对其自身生成 token 的置信度。

连续的EM训练可能会太过强化模型已有的先验偏差，导致输出结果太过集中于狭窄、太过自信的 token 漫衍，从而加剧算法偏差并导致输出显著偏离正确路径，最终损害了模型的实际推理性能。

熵最小化的不稳定性和太过自信的损害也体现在训练时的温度上。

经过EM训练的模型在四个数学推理基准上的平均性能随着生成温度的升高总体泛起上升趋势。

平均性能的最大值最初增加，随后在温度约为0.5时开始下降。较高的温度带来更好的平均推理能力，而适中的温度（如0.5）则导致更大的性能波动，从而为更高的峰值性能创立了时机。

EM训练同时展现出显著的随机性，即便设置完全相同，四个数学推理基准测试的平均得分也会因种子差别而相差高达两倍。

EM适合哪些场景？

研究标明，熵最小化（EM）尤其适合以下三种场景。

尚未进行大宗RL调优的基础模型或仅经过 SFT 的模型

研究人员在多个差别的基础模型上评估了one-shot EM的效果，结果标明，仅通过单个样本和少少的训练步数，EM 能够连续且显著地提升这些模型在数学推理基准测试上的性能。

然而，当应用于已经过大宗RL广泛微调的模型（如 SimpleRL-Zoo）时，One-shot EM反而可能导致性能下降，与在RL之后应用EM可能锁定狭窄、太过自信的输出模式并损害性能的发明一致。

需要快速安排、没有富足标注数据或资源有限的场景

EM的焦点优势在于其极高的效率和对数据的极低需求，研究发明，One-shotEM实际上比 Multi-shotEM体现出更好的性能和更强的泛化能力。

尽管Multi-shot使用了更多的样本，但One-shot EM通过单个样本实现了更稳定和细致的优化，有效减少了样本偏差并缩小了输出方差，进一步强化了EM在数据极端稀缺场景下的吸引力。

无价钱能力增强

熵最小化（EM）可以作为现有后训练范式的有力增补甚至起点，将EM应用在RL之前能够带来有效增益，使其成为RL的有效「启用基础」。

EM通过其奇特的Logits右偏移效应提升模型的自信度，增强模型的推理能力，并可能增进后续RL训练的更快收敛和更稳定优化。

关于已经深度调优过的RL模型，再使用EM反而可能带来性能的下降。

行业前景与未来研究

One-shot EM的乐成，不但在于其惊人的数据和盘算效率，还在于它为LLM后训练提供了一种完全无监督的、可落地的替代计划，不需要人工标注数据，不需要构建庞大的奖励模型，极大地降低了后训练的门槛和本钱。

这项研究同样为未来的探索翻开了辽阔的空间：

训练稳定性与鲁棒性

One-shot EM虽然高效，但也陪同超参数敏感性和一定的训练不稳定性。

研究发明，连续的EM训练可能会导致模型「太过自信」，反而损害性能。

未来的事情需要探索早停标准或自适应调理机制，以及减少训练的随机性，以进一步稳定和提升EM的效果。

泛化能力与跨领域应用

EM在数学推理任务上体现精彩，但能否泛化到对话、摘要、代码生成等其他领域，还需要进一步的实验验证。

同时，目今EM在Token级别操作，未来的研究可以探索在序列或语义单位上应用结构化熵，或引入任务特定先验知识和自适应熵正则化，以释放更多潜力。

与现有技术的融合

EM作为一种漫衍塑造工具，与SFT、RLHF等现有后训练技术看法上正交。

研究发明，在RL之前应用EM可以带来有益的对数漫衍偏移，未来的事情可以系统地研究差别的EM与RL结合的时间表、课程战略及其相互作用，探索构建更强大混淆要领的可能性。

EM甚至可以作为SFT或RLHF历程中的一种正则化战略，或作为现有模型的「信心压缩」层。

置信度校准的深入研究

研究结果体现，EM通过强化高概率推理路径来增强模型的置信度，标明EM可能是一种轻量级的信心校准要领。未来的研究需要开发更精确的评估协议来量化EM的校准效应，深入理解其背后的机制。

参考资料：

https://www.notion.so/One-shot-Entropy-Minimization-202606db813b80639773f850f39246a5?source=copy_link

??时事1：嗯～c尿了～不许尿出来视频

??06月05日,存款利率调整兜底条款，谁的存款会受影响？事关银行：两大倡议发布，存款服务要变！,

　　不积小善，不可成大德;不积小恶，缺乏以亡身。如果在小事小节上“失守”，就很难在大事大节上守得住，这是被无数事实证明了的一条纪律。小节不小，小节可见精神，小节体现品性，小节关乎成败。干部搞一次特殊，就会丢掉一分威信;破一次规则，就会留下一个污点;谋一次私利，就会失去一片民心。糜烂是从“小节”开始，廉洁应从“小节”做起。我们决不可以小节问题“不止我一个”来原谅自我，决不可以小节失守“就只这一次”来开脱自我，决不可以小节毛病“几多有一点”来纵�自我，把小事放到大业、小节放到阵势之中加以掌握，真正做到不以恶小而为之、不以善小而不为，把好第一道关口，守住第一道防地。

,肏屄视频。

??06月05日,高校体育场地如何开放才合理？,　　加入运营北京奥林匹克森林公园西畔的国家网球中心两片红土网球园地的维宁体育首创人、CEO纪宁8日告诉《举世时报》记者：“本就稀缺的网球场馆在郑钦文夺冠后变得越发炙手可热，现在基础都约不上。”,美女撒尿免费网站,二次元大球球上下晃动,skil女性向全部剧集介绍。

??时事2：尼尔机械纪元2b怀孕生孩子

??06月05日,外媒：达沃斯“今日最大故事”是中国庞大的代表团,

　　一群强者都惊异，这是三头变异的幼鸟，都很纷歧般，若是养大，绝对极其特殊，是很强大的守护生灵。

?第三十七章猖狂,偷拍美女隐私㊙️视频在线观看,金卡戴珊RayJ录像性视频,小舞被❌❌吸乳羞羞动漫。

??06月05日,传统美食如何“破圈”？河南省人大代表从技术、人才“金字塔”等多方位支招,

　　“那是，我就纪录在上面。”小不点挺了挺小胸脯，一脸傲然之色。

,极品白丝浴室自慰喷水流白浆,爽⋯躁多水⋯快⋯深点无码,虞书欣被❌狂揉。

??时事3：彩虹Gay.com

??06月05日,中欧班列“东通道”通行量突破2000列,　　凭据排名，日本、伊朗和韩国队位列18强赛第一档。亚足联官网12日高度赞扬日本队：“在36强小组赛阶段6战全胜，打进24球未失一球。”日本队在最后一轮小组赛以5∶0轻取叙利亚队。别的，亚足联官网认为，伊朗和韩国队都在36强赛中体现出强大竞争力。而第二档的澳大利亚、卡塔尔和沙特队同样实力不俗。澳大利亚队以打进22球不丢一球的战绩拿下6连胜，卡塔尔队坚持不败，沙特队在最后一场小组赛中以1∶2不敌约旦队。伊拉克队以全胜战绩领衔第三档球队，而乌兹别克斯坦和阿联酋队也在36强赛中坚持不败，约旦、阿曼和巴林队这三支第四档球队都提前从36强中突围。,麻豆明星ai换脸视频,Chinese Gay Fuck XXX HD,亚洲A片人獸交XXOO。

??06月05日,“我想交些法国朋友”——中国童声合唱团赴法交流体验法国音乐风情,

　　“你是那个乡村中的孩子，竟然这么强大？！”中年男子见小不点化解了他的火光术，马上一惊，他记性极好，竟想起在哪里见过小不点了。

,刻晴被❌18🈲️在线观看,16萝女洗澡自慰呻吟网站,男男㊙️无遮挡拔萝卜。

??时事4：美女扒开内裤无遮挡免费直播

??06月05日,两岸青少年福建连城参访走古村赏古建筑感受客家文化,

学校及周边宁静教育国旗下（通用24篇）

,把班长按到桌子上c了一节课,玖辛奈被C哭着爬又被拉回挺进,网曝黑料吃瓜永久国产。

??06月05日,青海省调相机规模化、数字化建设关键技术取得重大突破,

　　这是一种凌厉无匹的至强宝术，曦光化成一口又一口剔透的红色仙剑，锋锐无比，带着滔天的火光，斩向巨禽。

,男人的🍌伸到🍑屁股软,美杜莎拉系列内衣,仙逆全黄H全肉辣文。

【第37届法国贝尔克国际风筝节揭幕中国担任主宾国】

【河北承德县：秋意染大山霜叶满阶红】

责编：戴维·斯特恩

审核：秦俊

责编：赵振国

凯发天生赢家一触即发首页

10步优化逾越强化学习 ，仅需1条未标注数据！后训练强势破局

10步优化逾越强化学习，仅需1条未标注数据！后训练强势破局