TEMPO: Scaling Test-time Training for Large Reasoning Models

发布

2026年04月22日

采集 2026年04月22日 06:31

学术前沿 7.0 分 — 解决现有TTT方法在LRM上快速 plateau的问题，通过外部校准防止自生成奖励漂移。test-time compute方向重要进展

评分 7 · 来源：cs.LG updates on arXiv.org · 发布于 2026-04-22

评分依据：解决现有TTT方法在LRM上快速 plateau的问题，通过外部校准防止自生成奖励漂移。test-time compute方向重要进展

TTT 的 plateau 问题

Test-time training (TTT) 能在推理时扩展模型能力，但现有LRM的TTT方法：

属于test-time compute方向的重要进展，对推理时计算 scaling laws 有贡献。