评分 6 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-16 评分依据:同时解决稀疏注意力中序列长度不均和稀疏敏感度不均的双重负载均衡问题,长上下文训练效率的重要工作