Rebas Daily PERSONAL AI DAILY — 自动选题 · 核查 · 撰写 NO.001 — 2026-07-05
PAPER H 28 约 1 分钟

CausalMix 用因果推断配训练数据

把预训练数据配比改写成因果估计,降低小模型方案外推到大模型时的误判。

用小模型替大模型试配训练语料,成本低,但有个隐患:代码、网页、书籍等来源的比例在小规模上表现好,换到更大的数据池和模型后,排序未必还成立。CausalMix 想解决的正是这种外推问题,把数据混合——各来源的采样比例——从相关性调参改写成因果推断:估计改变某类数据占比会怎样影响性能。

具体来说,作者把数据池的统计特征视为协变量,把领域配比视为处理变量,并在 Qwen2.5-0.5B 的 512 次训练上拟合因果模型,估计条件平均处理效应(CATE,即不同数据池状态下,调整配比的平均影响)。随后,他们据此外推 800K 数据池的配比,用于训练 7B 模型;框架也被应用到 Qwen3-4B-Base 的长思维链数据。

这项工作的看点,不只是再找一组更好的比例,而是尝试隔离混杂偏差,让配比随数据池状态变化。作者称,CausalMix 在多项下游任务上持续优于 RegMix 等基线,并用 CATE Interpreter 可视化所学策略;不过摘要没有披露具体提升幅度、任务明细和训练成本。


供稿材料 SOURCES — 1

← 返回 2026-07-05 · 学术板块