Rebas Daily PERSONAL AI DAILY — 自动选题 · 核查 · 撰写 NO.001 — 2026-07-05
PAPER H 32 约 1 分钟

QuasiMoTTo 重排测试时扩展的采样方式

QuasiMoTTo 用更均匀的并行采样,减少测试时扩展的重复算力。

让模型同时生成许多候选答案,再从中筛选,是测试时扩展——不改参数,只在推理阶段追加计算——的常见思路。问题在于,默认的独立采样容易反复撞向相似解法,算力花了,覆盖面却没同步扩大。QuasiMoTTo 想改的正是候选答案的“排布方式”。

它把自回归生成重写为逆 CDF 采样,再用 Quasi-Monte Carlo(QMC,借助低差异序列更均匀地覆盖采样空间)生成底层随机数。这样,一批候选彼此相关,但每个样本单独看仍服从语言模型原本的分布,因此也能用于策略梯度训练。作者在论文摘要中称:四个推理基准上,QuasiMoTTo 用少 25%—47% 的样本达到独立同分布采样的 pass@k 准确率;用于 GRPO 时,则以少 50% 的训练步数达到相同性能。这些结果目前来自作者自述,但方向很直接:测试时扩展不只看“采多少次”,也要看这些尝试是否真正铺开。


供稿材料 SOURCES — 1
01
QuasiMoTTo: Quasi-Monte Carlo Test-Time Scaling arXiv (cs.AI+cs.LG+cs.CL+cs.CV+stat.ML) · PAPER
原文 ↗

← 返回 2026-07-05 · 学术板块