HiPO: Hierarchical Preference Optimization for Adaptive Reasoning in LLMs

发布

2026年04月23日

采集 2026年04月23日 00:00

行业动态 6.5 分 — Hierarchical DPO for complex reasoning tasks. Addresses granularity limitation of standard DPO.

原文： arXiv

评分 6.5 · 来源： · 发布于

评分依据：Hierarchical DPO for complex reasoning tasks. Addresses granularity limitation of standard DPO.

SkillLearnBench: Benchmarking Continual Learning Methods for Agent Skill Generation on Real-World Tasks

WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning