评分 7 · 来源:arXiv · 发布于 2026-04-09
评分依据:分阶段层次优势估计用于LLM推理——RL推理训练的方法论改进,对reasoning model训练有指导意义
SHAPE: Stage-aware Hierarchical Advantage Estimation for LLM Reasoning
原文: arXiv
评分 7 · 来源:arXiv · 发布于 2026-04-09
评分依据:分阶段层次优势估计用于LLM推理——RL推理训练的方法论改进,对reasoning model训练有指导意义