Skip to content
星际流动

STTS:跨 ViT 和 LLM 的统一视频 token 剪枝

发布
采集
学术前沿 7.0 分 — 首个跨 ViT 和 LLM 的统一 token 剪枝方案,无需文本条件,端到端可训练,50% 剪枝仅 0.7% 性能损失
原文: arXiv

评分 7.00 · 来源:arXiv · 发布于 2026-03-19

评分依据:首个跨 ViT+LLM 全架构的视频 token 剪枝方法,简洁高效,训练和推理均可获益

要点

视频 VLM 的计算瓶颈很大程度上来自视觉 token 的冗余——时间维度上的帧间重复和空间维度上的背景冗余。之前的方案要么只在 ViT 内部剪枝(不适应下游视觉语言任务),要么只在 LLM 内部剪枝(需要复杂的文本条件机制)。

STTS(Spatio-Temporal Token Scoring)提出了一种统一方案:

🤖 AI 点评

STTS 的简洁性是其最大卖点——不引入新的架构假设,不加文本条件分支,就是一个小评分模块 + 打包算法,然后在 ViT 和 LLM 两端统一生效。这种「少即是多」的设计在学术届很稀缺。

50% 剪枝只丢 0.7% 性能的数据很有说服力,但更值得关注的是「效率增益随采样帧数增加而增大」这个特性。这意味着对于长视频场景(帧数多),STTS 的优势会被放大——这恰好是当前视频 VLM 最需要优化的方向。


标签: