Latent-GRPO: Group Relative Policy Optimization for Latent Reasoning

发布

2026年05月01日

采集 2026年05月01日 06:31

学术前沿 7.0 分 — Latent-GRPO对潜在推理的组相对策略优化，推理效率前沿

原文： arxiv.org

评分 7 · 来源： · 发布于 2026-05-01

评分依据：Latent-GRPO对潜在推理的组相对策略优化，推理效率前沿

Exploration Hacking: Can LLMs Learn to Resist RL Training?

ZipCCL: Efficient Lossless Data Compression of Communication Collectives for Accelerating LLM Training