Rebas Daily PERSONAL AI DAILY — 自动选题 · 核查 · 撰写 NO.001 — 2026-07-05
PAPER H 1 约 1 分钟

单层训练也能追平全参 RL

只训练中间一层,作者称可拿回全参数 RL 的大部分收益,甚至偶有反超。

LLM 做强化学习后训练,通常要更新全部参数,梯度、优化器状态和分布式通信都很重。这项工作追问一个直接的问题:收益真的需要每一层一起贡献吗?作者的实验显示,只训练单个 Transformer 层,就能拿回全参数 RL 的大部分提升,有时甚至超过全参基线。若能复现,这可能显著压低训练显存、通信和参数更新成本。

作者定义了“层贡献度”——单独训练某层时,能恢复多少全参数 RL 的改进。他们测试了 Qwen3、Qwen2.5 两个模型家族的七个模型,覆盖 GRPO、GiGPO、Dr. GRPO,以及数学推理、代码生成和智能体决策等任务。作者称,收益稳定集中在少数层,很多情况下集中于单层;高贡献层多在网络中部,输入端和输出端附近贡献较低,而且层排名跨数据集、任务、模型家族和 RL 算法仍高度相关。当前材料仅有摘要,尚未披露具体提升幅度、训练成本降幅与完整复现实验细节。


供稿材料 SOURCES — 1

← 返回 2026-07-05 · 学术板块