Rebas Daily PERSONAL AI DAILY — 自动选题 · 核查 · 撰写 NO.001 — 2026-07-05
PAPER HF 24 约 1 分钟

ELDR 让 MoE 解码路由看懂专家位置

ELDR 根据专家位置分配解码请求,在负载均衡之外减少 MoE 通信开销。

MoE 服务里,两台同样忙的解码节点,响应速度未必一样。原因是每一步生成都可能加载一组不同的专家权重;只按请求数量做负载均衡,会忽略权重搬运和跨设备通信。ELDR 试图让路由器同时看懂“节点有多忙”和“请求更适合去哪里”。

在 Prefill–Decode 解耦架构中,ELDR 根据请求在 prefill 阶段激活的专家,生成一份 expert signature——用于预测后续生成会调用哪些专家。离线阶段,它用 balanced K-means 将签名空间分配给各解码节点;在线阶段,再从最匹配签名的一组节点里选择负载最低者。它还把签名缓存与 KV cache 按 KV block 共同索引,以适配 prefix caching。

作者在 vLLM 中实现 ELDR,并称其在最多 40 张 GPU、三个 MoE 模型和两类工作负载上,相比四种负载均衡基线中的最强者,将中位 TPOT 降低 5.9%–13.9%,且模型输出不变。现有材料仅含论文摘要,未披露具体模型、负载与通信开销拆分。


供稿材料 SOURCES — 1

← 返回 2026-07-05 · 学术板块