单层训练也能追平全参 RL

LLM 做强化学习后训练，通常要更新全部参数，梯度、优化器状态和分布式通信都很重。这项工作追问一个直接的问题：收益真的需要每一层一起贡献吗？作者的实验显示，只训练单个 Transformer 层，就能拿回全参数 RL 的大部分提升，有时甚至超过全参基线。若能复现，这可能显著压低训练显存、通信和参数更新成本。

作者定义了“层贡献度”——单独训练某层时，能恢复多少全参数 RL 的改进。他们测试了 Qwen3、Qwen2.5 两个模型家族的七个模型，覆盖 GRPO、GiGPO、Dr. GRPO，以及数学推理、代码生成和智能体决策等任务。作者称，收益稳定集中在少数层，很多情况下集中于单层；高贡献层多在网络中部，输入端和输出端附近贡献较低，而且层排名跨数据集、任务、模型家族和 RL 算法仍高度相关。当前材料仅有摘要，尚未披露具体提升幅度、训练成本降幅与完整复现实验细节。