VideoSeek：长时域视频 Agent 的工具引导式主动寻帧方法

评分 7.4 · 来源：arXiv · 发布于 2026-03-22

评分依据：CVPR 2026 论文，93% 帧数减少是效率突破性指标，主动寻帧范式对视频 Agent 有广泛应用前景

要点

VideoSeek 是一个面向长时域视频理解的新型 Agent 系统，提出工具引导式主动寻帧方法。不同于传统视频理解模型被动处理所有帧，VideoSeek 让模型自主决定「看哪里」，模拟人类在长视频中寻找关键信息的行为。

在 LVBench 基准上，基于 GPT-5 的 VideoSeek 提升了 10.2 分，同时将实际使用帧数减少 93%。这意味着模型不需要看完整个视频就能准确定位关键信息，实现了精度与效率的双重突破。

🤖 AI 点评

视频理解的核心瓶颈从来不是「能不能看懂」，而是「需要看多少帧」。VideoSeek 的主动寻帧思路本质上是在视频 Agent 中引入了检索增强的哲学——不是处理所有信息，而是聪明地找到关键信息。93% 的帧数减少意味着长视频 AI 理解可能很快从实验室走向实用，对视频监控、内容审核、司法取证等场景有直接影响。