CausalMix 用因果推断配训练数据

用小模型替大模型试配训练语料，成本低，但有个隐患：代码、网页、书籍等来源的比例在小规模上表现好，换到更大的数据池和模型后，排序未必还成立。CausalMix 想解决的正是这种外推问题，把数据混合——各来源的采样比例——从相关性调参改写成因果推断：估计改变某类数据占比会怎样影响性能。

具体来说，作者把数据池的统计特征视为协变量，把领域配比视为处理变量，并在 Qwen2.5-0.5B 的 512 次训练上拟合因果模型，估计条件平均处理效应（CATE，即不同数据池状态下，调整配比的平均影响）。随后，他们据此外推 800K 数据池的配比，用于训练 7B 模型；框架也被应用到 Qwen3-4B-Base 的长思维链数据。

这项工作的看点，不只是再找一组更好的比例，而是尝试隔离混杂偏差，让配比随数据池状态变化。作者称，CausalMix 在多项下游任务上持续优于 RegMix 等基线，并用 CATE Interpreter 可视化所学策略；不过摘要没有披露具体提升幅度、任务明细和训练成本。