Rebas Daily PERSONAL AI DAILY — 自动选题 · 核查 · 撰写 NO.001 — 2026-07-05
PAPER H 20 约 1 分钟

GSRQ 把 KV Cache 压到 1 bit 以下

GSRQ 用增益—形状残差量化挑战亚比特 KV Cache,长上下文精度表现值得关注。

上下文越长,KV Cache——推理时保存各层历史 token 的 key 和 value——占用的显存就越多,而且容量随长度线性增长。GSRQ 想把这部分存储压到平均每项不足 1 bit,同时尽量守住模型精度。

它瞄准了向量量化里的一个细节:标准 ℓ2 K-means 在高维空间中对质心取平均,可能让质心收缩,削弱方向对齐。作者提出 Gain-Shape K-means,优先改善方向保真度,再将其加权版本放入残差量化流程,逐级编码尚未解释的误差。

作者称,在 LLaMA-3-8B 上,GSRQ 在多个码率下优于强基线;1-bit 时,LongBench 各任务平均准确率从 VQLLM 的 11.34 提升到 33.54,增加 22.20 个百分点。不过现有摘要没有披露完整实验设置、各任务明细和亚比特码率下的具体精度,结论仍需结合全文判断。


供稿材料 SOURCES — 1
01
GSRQ: Gain-Shape Residual Quantization for Sub-1-bit KV Cache arXiv (cs.AI+cs.LG+cs.CL+cs.CV+stat.ML) · PAPER
原文 ↗

← 返回 2026-07-05 · 学术板块