评分 7 · 来源:cs.CL updates on arXiv.org · 发布于 2026-04-22
评分依据:将attention重新形式化为近似哈希操作来加速长上下文推理,同时缓解内存压力和浮点运算开销。系统创新性强
动机
标准attention机制的二次计算复杂度是长上下文LLM推理的根本瓶颈。现有KV cache压缩方法虽缓解内存压力但常牺牲生成质量且未解决浮点运算开销。
DASH-KV 创新
将attention重新形式化为近似哈希操作:
- 非对称哈希设计适配attention的不对称性质
- 同时解决内存压力和浮点运算开销
- 保持生成质量
技术特点
- 硬件友好的设计理念
- 可与现有推理框架集成
- 对长文档处理、长对话等场景有显著加速效果