Skip to content
星际流动

V-GRPO: Online RL for Denoising Generative Models Is Easier than You Think

发布
采集
行业动态 6.5 分 — 为去噪生成模型提供直接的policy gradient online RL方法,绕过不可行似然问题,简化了对齐流程。
原文: arxiv.org

评分 6.5 · 来源: · 发布于

评分依据:为去噪生成模型提供直接的policy gradient online RL方法,绕过不可行似然问题,简化了对齐流程。