评分 6 · 来源:arXiv cs.LG · 发布于 2026-04-29
评分依据:多 agent 共享压缩 KV cache 池,int8/int4 非对称量化,对多 agent 推理部署有实用意义
PolyKV 让多个并发推理 agent 共享单一非对称压缩 KV cache 池,而非每个 agent 分配独立 KV cache。压缩是非对称的:Keys 用 int8 量化保持 softmax 稳定性,Values 用更低精度量化。通过 HuggingFace DynamicCache 注入 N 个独立 agent 上下文。