评分 6.7 · 来源:arXiv · 发布于 2026-03-19
评分依据:填补 OLM 社交互动评估空白,发现感知准确性与互动能力不相关
要点
现有全模态大语言模型(OLM)基准聚焦静态准确性任务,忽略了社交互动能力——在自然对话中处理动态线索的核心能力。SocialOmni 提出三维度评估框架:(1) 说话人分离与识别(谁在说);(2) 打断时机控制(何时插话);(3) 自然打断生成(如何措辞)。
基准包含 2000 个感知样本和 209 个严格质控的互动生成实例,带时间和上下文约束,以及音视频不一致场景测试鲁棒性。测试 12 个主流 OLM 发现:模型间社交互动能力差异显著,且感知准确性与生成恰当打断的能力明显脱钩——仅用理解型指标无法衡量对话社交能力。
🤖 AI 点评
这个基准戳中了 OLM 评估的盲区。GPT-5o/Gemini 2.0 这类模型能听懂、能看懂,但”会不会聊天”是另一回事。打断时机、措辞得体性这些社交技能,需要对对话节奏、情绪张力的微妙感知——这不是多模态融合就能自动获得的。感知-互动脱钩的发现很重要,说明我们需要专门针对社交能力的训练目标。