新智元报告主编:桃子 【新智元介绍】离开Meta后,田元东团队发布了最新论文。他们提出的“三门理论”发现,RLVR 微调只利于较小的权重,在不破坏模型结构的情况下提高性能。田元东离开后,他最后一篇亲笔签名的文章是什么?上月底,Meta 解雇了 600 人的团队,AI 老板田元东也正式宣布被解雇。近日,他在Meta期间发表的一篇论文正式发布,并被顶级会议Neurips 2025接收。在最新的研究中,他们发现了一个异常但稳定的模式——虽然强化和证明奖励(RLVR)的研究可以提高模型的性能,但在panmaster方向上并没有太大的分量,这是模型本身的结构所迫使的优化偏差。这背后的原因是什么?最好打开“黑匣子”看看。论文地址:https://arxiv.org/pdf/2511.08567 论文中,团队提出了“三门理论”,即KL锚点→几何结构→精度。它可以解释和识别人工智能独特的优化行为,还为参数空间中的一系列最近观测现象提供可解释性:包括稀疏强化学习更新、可忽略的遗忘以及在线量子序列的一次性校准。更重要的是,RLVR 优化方法与监督微调(SFT)完全不同,人们在 SFT 中经常使用的方法不一定在 RL 中效果很好。简而言之,新论文的最大贡献是首次绘制了 RLVR 训练动态的“参数级全景图”。 RL学习,优化偏差从何而来?在研究之前,Meta 团队提出了一个关于 RL 学习动态的基本问题:优化偏差从何而来?这如何影响期间的参数变化训练?为此,他们专门探索了RLVR方法。它通过使用确定性且经过验证的奖励函数来提高法学硕士在精确任务中的表现。 RLVR将在相同的预训练模型的基础上,指导不同运行、数据集和训练场景中相同类型偏好区域的更新。这是受模型本身影响的优化偏差。如下所示,在训练过程中,tutRL 将更新两个模型的两个区域。每个面板显示 0-1 个掩码更新(1 = 已更改,0 = 已更改)。尽管使用不同的数据和算法,但这种类似条纹的模式在不同的运行中运行。 1 RL 在两个模型的两个区域中搜索更新。在这里,作者回顾了 deepseek-r1-distill-qwen-1.5b 的 5 个微调。这些运行使用不同的数据,包括数学、代码和各种 RL 变体,例如 GRPO、DAPO 和 boost++。首先通过比较基本模型和微调模型来计算更新掩码 M_I 以跟踪更新集中的位置。随后,更新恒定比率:如下所示,通过 5 次 RLVR 运行,团队创建了第 13 层 (q/k/v/o) 的投影和 MLP 的下投影。较亮的带标记了在大多数运行中更新的坐标,显示出稳定的条纹状路线模式,而不是随机分布。权重更新的一致性比率2 Bias优化持续在整个训练过程中,以研究单次运行内的动态变化,作者还在deepseek-r1-distill-qwen-1.5中监测了训练步骤中行和列的更新比率:下图中,bias路由在训练初期就开始出现,并随着训练的进行而不断增加。这表明这是一种随着时间的推移保持稳定的现象,而不是短暂的、短暂的现象。其峰值对应于图 2 中的偏差结构。3 这种偏差可以在不同模型系列之间推广。不仅如此,作者还注意到美洲驼和米斯特拉尔的条纹结构具有相似的特征。这说明这种偏向路线是RLVR中的普遍现象。 “三门”理论,破解黑匣子 那么,究竟是什么驱动了RLVR独特的动态训练呢?在论文中,研究人员提出了“三门理论”。具体来说,强化学习更新的每一步都会经过三个“门”——它们共同使更新偏离主方向,并将其引导到保留谱结构的低曲率区域。 DOOR 1:KL 锚点更新约束。实验表明,RL 对同一策略(on-policy)的更新会施加隐含的 KL“绳索牵引力”,即锚点效应。每一步都保持策略的微小偏差。顺便说一句,这一观察结果与麻省理工学院、斯坦福大学和其他机构最近的研究是一致的。之前的研究表明,最终的策略也接近于最初的KL策略。接下来的重点是,这个怎么办“绳索牵引力”影响动态权重更新过程? GATE 2:模型的几何形状决定了KL约束下更新的着陆点。上面的门1提供了一条KL“牵引绳”,限制了单步偏移,但没有指定更新将落在哪里。在具有结构化几何体的平滑模型中,较小的更新仅限于现有几何体。根据矩阵微扰理论,例如Wedin的Sin-θ定理,小的范数微扰只会导致子空间非常小的旋转,并保持几乎稳定的谱结构。在 KL 约束下,RL 更新倾向于保留模型的原始权重结构,而不是破坏它。因此,更新自然会偏向于优化地形的低曲率方向,从而避免模型行为的剧烈变化。鉴于使用长 COT 直接量化 LRM 曲率的成本非常高,团队采用了一种高效的替代方法替代度量 - 加权尺度。第三门:正如作者所说,精度的限制,无法保存的对象看起来“杂乱”。 BF16 有限的精度(只有 7 个尾数)就像一个“镜头”:它将隐藏 RL 想要继续应用但太小而无法有效存储的微更新。基于理论的验证:参数层面的RLVR优化动力学,经过作者的验证了解了RLVR动力学的研究,与理论框架非常吻合。特别是man描述的“对非主权重的更新偏差”2.RLVR在提高推理能力的同时避开了主方向:它保留了谱几何结构,避开了主权重;当预先训练的几何结构被破坏时,这种优化偏差就消失了。 RLVR 保留了光谱几何形状,而 SFT 则破坏了它。如下图所示,是QWE中SFT和RLVR的光谱几何对比N3-8B-底座。与SFT相比,RLVR可以保持稳定的一阶K阶谱,并显着减少子空间旋转。左:层示例的K条主曲线和奇异值曲线的第一主角;右:所有层中的最大主角和归一化光谱漂移。 RLVR可以避开主权值,而SFT可以直接更新主权值。下图中,RL 将避免更新主要权重。研究人员将 RL 掩模更新与主权重掩模 m_princ、低幅度掩模 m_low 以及两者的组合 m_princ ∩ m_low^c 进行了比较。 RL更新和主权重之间的逐层重叠率始终低于随机级别;当去除与 m_low 的重叠权重时(即 m_princ ∩ m_low^c),这种效果变得更加明显。重新思考 RL 算法 作者遵循的动态练习揭示了超越机制本身的重要见解:参数空间中的 RL 优化机制与SFT完全不同。 SFT 时代诞生的旧 PEF 方法,尤其是依赖稀疏或低秩先验并因此与动态 SFT 训练高度一致的方法,不会很好地迁移到 RLVR。下图的曲线直接证明:SFT中首选的主更新方向对于RL来说是无效的。下图显示了 LORA 和 PISSA 在 DS-QWEN-1.5B (DeepMATH-103K) 上的性能对比。总的来说,Pissa(瞄准主方向)相比Lora并没有带来额外的好处;而且当学习率较高,强制主方向更新时,有早跌的趋势,而Lora还是比较稳定。这个结果支持了该研究的几何分析:在 SFT 首选的主方向上强制更新并不符合 RL 的 opt.imize 的属性。不仅不能带来明显的好处,而且在提升学习率时还会导致训练失败。塔斯此外,作者还分析了附加智能体和RLHF(基于人类反馈的RL),并确认它们在权重空间中的诊断结果与之前的一致:(i)主子空间旋转很小,(ii)谱漂移轻微,(iii)主方向存在明显的错误更新。下面是关于代理和 RLHF 的更多实验结果。参考:https://x.com/tydsh/status/1989049095575728156?s=20
特别声明:以上内容(如有则包括照片或视频)均来自自媒体平台“一号”用户上传发布,本平台仅提供imb服务座位信息
注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。 Copyright © 2024-2026 58爆料网每日精选最新消息-每日大赛黑料爆料-166fun热点黑料传送门 版权所有