评分 7 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-22
评分依据:考虑paged memory layout、正则内存访问和融合attention执行等实际服务约束的4-bit KV缓存量化。工程落地价值高
KV Cache 内存瓶颈
KV-cache memory 是真实世界LLM serving的主要瓶颈,需同时支持:
- 延迟敏感的小批量请求
- 高吞吐并发工作负载
现有方案的工程缺陷
许多KV-cache压缩方法改进了离线 accuracy 或 compression ratio,但违反实际 serving 约束:
- paged memory layouts
- 正则内存访问模式
- 融合attention执行
SAW-INT4 方案
- System-Aware:尊重上述所有工程约束
- 4-bit KV Cache:实际可部署的量化精度
- 兼容主流serving框架
价值
对生产环境LLM服务的降本增效有直接帮助。