评分 5 · 来源:arXiv cs.LG · 发布于 2026-04-29
评分依据:ViT 注意力全整数量化方案,识别并解决三个主要障碍
FlashAttention 通过 tiling 提升效率,但 online softmax 依赖浮点运算阻碍全量化。QFlash 识别三个障碍:tile-wise accumulation 尺度爆炸、GPU 上低效移位指数运算、均匀尺度的整数比较约束,并提出解决方案。
评分 5 · 来源:arXiv cs.LG · 发布于 2026-04-29
评分依据:ViT 注意力全整数量化方案,识别并解决三个主要障碍
FlashAttention 通过 tiling 提升效率,但 online softmax 依赖浮点运算阻碍全量化。QFlash 识别三个障碍:tile-wise accumulation 尺度爆炸、GPU 上低效移位指数运算、均匀尺度的整数比较约束,并提出解决方案。