评分 7 · 来源:arXiv cs.AI · 发布于 2026-04-23
评分依据:LLM推理scaling的综合综述,覆盖多Agent协作等策略,指出推理scaling比数据/模型scaling更复杂甚至可能负影响,对研究者有良好参考价值。
LLM的快速进展显著增强了推理能力,由多种策略驱动(如多Agent协作)。然而,与通过扩展数据和模型大小建立的成熟性能改进不同,LLM中的推理扩展更为复杂,甚至可能对推理性能产生负面影响,给模型对齐和鲁棒性带来新挑战。
核心观点:
- 推理 scaling ≠ 数据/模型 scaling
- 推理能力不一定随计算量单调增长
- 多Agent协作等策略引入新的复杂性维度
- 存在推理性能的”反 scaling”现象
覆盖维度:
- Test-time compute scaling
- 多Agent协作推理
- Long Chain-of-Thought
- 过程监督 vs 结果监督
- 对模型对齐和鲁棒性的影响