ELDR 让 MoE 解码路由看懂专家位置

MoE 服务里，两台同样忙的解码节点，响应速度未必一样。原因是每一步生成都可能加载一组不同的专家权重；只按请求数量做负载均衡，会忽略权重搬运和跨设备通信。ELDR 试图让路由器同时看懂“节点有多忙”和“请求更适合去哪里”。

在 Prefill–Decode 解耦架构中，ELDR 根据请求在 prefill 阶段激活的专家，生成一份 expert signature——用于预测后续生成会调用哪些专家。离线阶段，它用 balanced K-means 将签名空间分配给各解码节点；在线阶段，再从最匹配签名的一组节点里选择负载最低者。它还把签名缓存与 KV cache 按 KV block 共同索引，以适配 prefix caching。

作者在 vLLM 中实现 ELDR，并称其在最多 40 张 GPU、三个 MoE 模型和两类工作负载上，相比四种负载均衡基线中的最强者，将中位 TPOT 降低 5.9%–13.9%，且模型输出不变。现有材料仅含论文摘要，未披露具体模型、负载与通信开销拆分。