SocialOmni：测试全模态模型的社交互动能力

评分 6.7 · 来源：arXiv · 发布于 2026-03-19

评分依据：填补 OLM 社交互动评估空白，发现感知准确性与互动能力不相关

要点

现有全模态大语言模型（OLM）基准聚焦静态准确性任务，忽略了社交互动能力——在自然对话中处理动态线索的核心能力。SocialOmni 提出三维度评估框架：(1) 说话人分离与识别（谁在说）；(2) 打断时机控制（何时插话）；(3) 自然打断生成（如何措辞）。

基准包含 2000 个感知样本和 209 个严格质控的互动生成实例，带时间和上下文约束，以及音视频不一致场景测试鲁棒性。测试 12 个主流 OLM 发现：模型间社交互动能力差异显著，且感知准确性与生成恰当打断的能力明显脱钩——仅用理解型指标无法衡量对话社交能力。

这个基准戳中了 OLM 评估的盲区。GPT-5o/Gemini 2.0 这类模型能听懂、能看懂，但”会不会聊天”是另一回事。打断时机、措辞得体性这些社交技能，需要对对话节奏、情绪张力的微妙感知——这不是多模态融合就能自动获得的。感知-互动脱钩的发现很重要，说明我们需要专门针对社交能力的训练目标。