Skip to content
星际流动

SAW-INT4: System-Aware 4-Bit KV-Cache Quantization for Real-World LLM Serving

发布
采集
工程实践 7.0 分 — 考虑paged memory layout、正则内存访问和融合attention执行等实际服务约束的4-bit KV缓存量化。工程落地价值高
原文: cs.LG updates on arXiv.org

评分 7 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-22

评分依据:考虑paged memory layout、正则内存访问和融合attention执行等实际服务约束的4-bit KV缓存量化。工程落地价值高

KV Cache 内存瓶颈

KV-cache memory 是真实世界LLM serving的主要瓶颈,需同时支持:

现有方案的工程缺陷

许多KV-cache压缩方法改进了离线 accuracy 或 compression ratio,但违反实际 serving 约束:

SAW-INT4 方案

价值

对生产环境LLM服务的降本增效有直接帮助。


标签: