SHAPE: Stage-aware Hierarchical Advantage Estimation for LLM Reasoning

发布

2026年04月09日

采集 2026年04月09日 00:00

学术前沿 7.0 分 — 分阶段层次优势估计用于LLM推理——RL推理训练的方法论改进，对reasoning model训练有指导意义

原文： arXiv

评分 7 · 来源：arXiv · 发布于 2026-04-09

评分依据：分阶段层次优势估计用于LLM推理——RL推理训练的方法论改进，对reasoning model训练有指导意义

Foundry: Template-Based CUDA Graph Context Materialization for Fast LLM Serving Cold Start

The Depth Ceiling: On Limits of LLMs in Discovering Latent Planning