JigsawRL: Assembling RL Pipelines for Efficient LLM Post-Training

发布

2026年04月28日

采集 2026年04月28日 10:31

行业动态 6.5 分 — 通过Pipeline Multiplexing探索RL并行新维度，解决stage级抽象隐藏的不平衡问题，对大规模RL训练效率提升有实际贡献。

原文： arxiv.org

评分 6.5 · 来源： · 发布于

评分依据：通过Pipeline Multiplexing探索RL并行新维度，解决stage级抽象隐藏的不平衡问题，对大规模RL训练效率提升有实际贡献。

Continual Calibration: Coverage Can Collapse Before Accuracy in Lifelong LLM Fine-Tuning

ContextWeaver: Selective and Dependency-Structured Memory Construction for LLM Agents