DASH-KV: Accelerating Long-Context LLM Inference via Asymmetric KV Cache Hashing

发布

2026年04月22日

采集 2026年04月22日 06:31

工程实践 7.0 分 — 将attention重新形式化为近似哈希操作来加速长上下文推理，同时缓解内存压力和浮点运算开销。系统创新性强

评分 7 · 来源：cs.CL updates on arXiv.org · 发布于 2026-04-22

评分依据：将attention重新形式化为近似哈希操作来加速长上下文推理，同时缓解内存压力和浮点运算开销。系统创新性强

动机

标准attention机制的二次计算复杂度是长上下文LLM推理的根本瓶颈。现有KV cache压缩方法虽缓解内存压力但常牺牲生成质量且未解决浮点运算开销。

将attention重新形式化为近似哈希操作：