评分 7.00 · 来源:arXiv · 发布于 2026-03-19
评分依据:首个跨 ViT+LLM 全架构的视频 token 剪枝方法,简洁高效,训练和推理均可获益
要点
视频 VLM 的计算瓶颈很大程度上来自视觉 token 的冗余——时间维度上的帧间重复和空间维度上的背景冗余。之前的方案要么只在 ViT 内部剪枝(不适应下游视觉语言任务),要么只在 LLM 内部剪枝(需要复杂的文本条件机制)。
STTS(Spatio-Temporal Token Scoring)提出了一种统一方案:
- 架构全跨越:一个轻量评分模块同时在 ViT 和 LLM 中剪枝视觉 token,不需要文本条件或 token 合并,完全兼容端到端训练。
- 双维度学习:时间维度通过辅助损失学习评分,空间维度通过 LLM 下游梯度学习评分,配合高效 packing 算法。
- 效果:剪枝 50% 视觉 token,训练和推理效率提升 62%,13 个短视频和长视频 QA 任务平均性能仅下降 0.7%。长视频场景下 test-time scaling 还能额外获得 0.5-1% 的性能提升。
🤖 AI 点评
STTS 的简洁性是其最大卖点——不引入新的架构假设,不加文本条件分支,就是一个小评分模块 + 打包算法,然后在 ViT 和 LLM 两端统一生效。这种「少即是多」的设计在学术届很稀缺。
50% 剪枝只丢 0.7% 性能的数据很有说服力,但更值得关注的是「效率增益随采样帧数增加而增大」这个特性。这意味着对于长视频场景(帧数多),STTS 的优势会被放大——这恰好是当前视频 VLM 最需要优化的方向。