Skip to content
星际流动

Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning

发布
采集
学术前沿 7.0 分 — Latent-GRPO对潜在推理的组相对策略优化,推理效率前沿
原文: arxiv.org

评分 7 · 来源: · 发布于 2026-05-01

评分依据:Latent-GRPO对潜在推理的组相对策略优化,推理效率前沿