评分依据:免训练的Agent自适应计算分配控制器:通过 rollout 间动作一致性测量动态分配计算量,简单有效且零成本,对Agent推理效率有高实用价值。
Don't Overthink It: Inter-Rollout Action Agreement as a Free Adaptive-Compute Signal for LLM Agents
原文: arxiv.org
评分依据:免训练的Agent自适应计算分配控制器:通过 rollout 间动作一致性测量动态分配计算量,简单有效且零成本,对Agent推理效率有高实用价值。