评分 7 · 来源:cs.LG updates on arXiv.org · 发布于 2026-04-22
评分依据:解决现有TTT方法在LRM上快速 plateau的问题,通过外部校准防止自生成奖励漂移。test-time compute方向重要进展
TTT 的 plateau 问题
Test-time training (TTT) 能在推理时扩展模型能力,但现有LRM的TTT方法:
- 快速 plateau:无法从额外 test-time compute 中获益
- 奖励漂移:自生成奖励信号随策略演化逐渐偏离
TEMPO 方案
- 引入外部校准机制防止奖励漂移
- 使TTT突破 plateau 继续提升
- 充分利用额外的 test-time budget
意义
属于test-time compute方向的重要进展,对推理时计算 scaling laws 有贡献。