All the articles with the tag "VLM".
从单目视频输入为 2D VLM 赋予 3D 理解能力,在语言定位和 3D QA 基准上取得 SOTA。
YC W26 项目,解析 50+ 种混乱金融文档,检测欺诈并提取承保信号