Enhancing LLM Problem Solving via Tutor-Student Multi-Agent Interaction

发布

2026年04月13日

采集 2026年04月13日 04:31

学术前沿 5.3 分 — 导师-学生多 agent 交互模式借鉴认知发展原理，有启发性但实验域集中泛化性待证。

原文： arXiv cs.AI

评分 5.3 · 来源：arXiv cs.AI · 发布于 2026-04-13

评分依据：导师-学生多 agent 交互模式借鉴认知发展原理，有启发性但实验域集中泛化性待证。

从认知发展获得的灵感

人类的认知发展不仅靠个人努力，更靠结构化的社会交互。师生之间的角色式对话能让双方达到各自无法独立达到的理解水平（Vygotsky’s Zone of Proximal Development）。

这篇论文问：这种互动模式能否让 LLM 也受益？

Tutor-Student 框架

论文设计了两个具有互补特性的 agent 角色：

Tutor（导师）：

不直接给出答案
通过提示、引导、追问来促进学生 agent 的思考
自适应调整指导策略基于学生的回应质量

Student（学生）：

尝试独立解决问题
在卡住时向 tutor 请求适当提示
整合 tutor 的反馈形成最终答案

实验结果

在数学和代码求解任务上：

Tutor-Student 组合显著优于两个独立 agent 的简单协作
也优于单个强力模型的 chain-of-thought
关键成功因素：tutor 的提示策略必须是自适应的而非固定模板

与 Multi-Agent 研究的联系

与 Camera Artist 的多 agent 视角不同：这里强调的是认知协同而非工作流分工
与 SkillForge 的自演化互补：tutor-student 是一种在线学习方式
对 coding agent 的 code review 场景有直接启发：senior dev + junior dev 的协作模式

论文: arXiv:2604.08931

标签：

SEA-Eval: A Benchmark for Evaluating Self-Evolving Agents Beyond Episodic Assessment

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks