Skip to content
星际流动

DASH-KV: Accelerating Long-Context LLM Inference via Asymmetric KV Cache Hashing

发布
采集
工程实践 7.0 分 — 将attention重新形式化为近似哈希操作来加速长上下文推理,同时缓解内存压力和浮点运算开销。系统创新性强
原文: cs.CL updates on arXiv.org

评分 7 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-22

评分依据:将attention重新形式化为近似哈希操作来加速长上下文推理,同时缓解内存压力和浮点运算开销。系统创新性强

动机

标准attention机制的二次计算复杂度是长上下文LLM推理的根本瓶颈。现有KV cache压缩方法虽缓解内存压力但常牺牲生成质量且未解决浮点运算开销。

DASH-KV 创新

将attention重新形式化为近似哈希操作

技术特点


标签: