异步 RLHF 有了陈旧度缩放律

异步 RLHF 一边生成回答，一边更新模型，吞吐更高，但 learner 常会拿到旧策略生成的 rollout。数据越旧，与当前策略越可能错位。问题在于：学习率该因此降多少？这项工作在异步 GRPO——按同一输入的多条回答做组内相对优化——中，尝试给出可计算的关系。

作者显式区分生成轨迹的行为策略与 learner 正在优化的策略，并区分 learner 使用的代理梯度和分布相关总体目标的真实全导数。在局部有界、分布平滑和行为策略平滑等假设下，他们推导出：每步代理梯度偏差为 O(S·η)，其中 S 是最大 rollout 延迟，η 是学习率。

作者进一步提出双重稳定约束：η ≪ min{R_batch/(S·G_upd), R_crit/(T·G_upd)}。直观地说，短期稳定看 S·η，较长周期还受累计更新漂移 T·η 控制。这也解释了为何某些受训练时域限制的场景里，最大稳定学习率看起来对陈旧度并不敏感。结论目前来自其条件性理论推导，摘要未披露实验验证细节。