Skip to content
星际流动
模型动态
工程实践
学术前沿
行业动态
深度观点
算力硬件
政策伦理
文章库
模型动态
工程实践
学术前沿
行业动态
深度观点
算力硬件
政策伦理
文章库
首页
/
标签
/
rlvr
Tag:
RLVR
All the articles with the tag "RLVR".
6.7
Self-Distilled RLVR:自蒸馏提升推理模型的强化学习效率
2026年04月06日
·
arXiv cs.LG
· 04/06 12:33 采集
探索策略内自蒸馏用于推理模型训练,同一模型作为教师和学生,通过特权信息提升蒸馏信号质量。