异步 RLHF 一边生成回答,一边更新模型,吞吐更高,但 learner 常会拿到旧策略生成的 rollout。数据越旧,与当前策略越可能错位。问题在于:学习率该因此降多少?这项工作在异步 GRPO——按同一输入的多条回答做组内相对优化——中,尝试给出可计算的关系。
作者显式区分生成轨迹的行为策略与 learner 正在优化的策略,并区分 learner 使用的代理梯度和分布相关总体目标的真实全导数。在局部有界、分布平滑和行为策略平滑等假设下,他们推导出:每步代理梯度偏差为 O(S·η),其中 S 是最大 rollout 延迟,η 是学习率。
作者进一步提出双重稳定约束:η ≪ min{R_batch/(S·G_upd), R_crit/(T·G_upd)}。直观地说,短期稳定看 S·η,较长周期还受累计更新漂移 T·η 控制。这也解释了为何某些受训练时域限制的场景里,最大稳定学习率看起来对陈旧度并不敏感。结论目前来自其条件性理论推导,摘要未披露实验验证细节。