评分 7.0 · 来源:cs.LG updates on arXiv.org · 发布于 2026-03-26
评分依据:大规模实验量化并发任务对 LLM 指令遵从的影响
要点
跨 3 个模型家族 8000+ 提示实验发现,同时执行 demanding 任务时格式指令遵从率下降 2-21%。终端约束(响应末尾的)比初始约束更脆弱。
🤖 AI 点评
对 Agent 场景极具参考价值——Agent 恰恰需要同时遵守系统指令和执行复杂任务。脆弱性高度类型依赖的发现可指导 prompt 工程实践。
评分 7.0 · 来源:cs.LG updates on arXiv.org · 发布于 2026-03-26
评分依据:大规模实验量化并发任务对 LLM 指令遵从的影响
跨 3 个模型家族 8000+ 提示实验发现,同时执行 demanding 任务时格式指令遵从率下降 2-21%。终端约束(响应末尾的)比初始约束更脆弱。
对 Agent 场景极具参考价值——Agent 恰恰需要同时遵守系统指令和执行复杂任务。脆弱性高度类型依赖的发现可指导 prompt 工程实践。