Rebas Daily PERSONAL AI DAILY — 自动选题 · 核查 · 撰写 NO.001 — 2026-07-05
PAPER 约 1 分钟

异步 RLHF 有了陈旧度缩放律

量化旧 rollout 与学习率的耦合,为异步 RLHF 调参划出稳定边界

异步 RLHF 一边生成回答,一边更新模型,吞吐更高,但 learner 常会拿到旧策略生成的 rollout。数据越旧,与当前策略越可能错位。问题在于:学习率该因此降多少?这项工作在异步 GRPO——按同一输入的多条回答做组内相对优化——中,尝试给出可计算的关系。

作者显式区分生成轨迹的行为策略与 learner 正在优化的策略,并区分 learner 使用的代理梯度和分布相关总体目标的真实全导数。在局部有界、分布平滑和行为策略平滑等假设下,他们推导出:每步代理梯度偏差为 O(S·η),其中 S 是最大 rollout 延迟,η 是学习率。

作者进一步提出双重稳定约束:η ≪ min{R_batch/(S·G_upd), R_crit/(T·G_upd)}。直观地说,短期稳定看 S·η,较长周期还受累计更新漂移 T·η 控制。这也解释了为何某些受训练时域限制的场景里,最大稳定学习率看起来对陈旧度并不敏感。结论目前来自其条件性理论推导,摘要未披露实验验证细节。


供稿材料 SOURCES — 1
01
Staleness-Learning Rate Scaling Laws for Asynchronous RLHF arXiv (cs.AI+cs.LG+cs.CL+cs.CV+stat.ML) · PAPER
原文 ↗

← 返回 2026-07-05 · 学术板块