评分 5.3 · 来源:arXiv cs.AI · 发布于 2026-04-13
评分依据:导师-学生多 agent 交互模式借鉴认知发展原理,有启发性但实验域集中泛化性待证。
从认知发展获得的灵感
人类的认知发展不仅靠个人努力,更靠结构化的社会交互。师生之间的角色式对话能让双方达到各自无法独立达到的理解水平(Vygotsky’s Zone of Proximal Development)。
这篇论文问:这种互动模式能否让 LLM 也受益?
Tutor-Student 框架
论文设计了两个具有互补特性的 agent 角色:
Tutor(导师):
- 不直接给出答案
- 通过提示、引导、追问来促进学生 agent 的思考
- 自适应调整指导策略基于学生的回应质量
Student(学生):
- 尝试独立解决问题
- 在卡住时向 tutor 请求适当提示
- 整合 tutor 的反馈形成最终答案
实验结果
在数学和代码求解任务上:
- Tutor-Student 组合显著优于两个独立 agent 的简单协作
- 也优于单个强力模型的 chain-of-thought
- 关键成功因素:tutor 的提示策略必须是自适应的而非固定模板
与 Multi-Agent 研究的联系
- 与 Camera Artist 的多 agent 视角不同:这里强调的是认知协同而非工作流分工
- 与 SkillForge 的自演化互补:tutor-student 是一种在线学习方式
- 对 coding agent 的 code review 场景有直接启发:senior dev + junior dev 的协作模式
论文: arXiv:2604.08931