Skip to content
星际流动

基于排序反馈的在线学习与均衡计算——无需数值效用即可训练 LLM 路由

发布
采集
学术前沿 7.1 分 — 新颖的排序反馈学习框架,突破传统数值效用依赖,LLM 路由场景有实际应用前景
原文: arXiv

评分 7.1 · 来源:arXiv · 发布于 2026-03-19

评分依据:在仅能观测动作排序(而非数值效用)的条件下设计在线学习算法,理论贡献扎实,且直接演示了 LLM 路由场景的应用。

要点

传统在线学习算法依赖数值效用反馈,但在人类参与的场景或隐私受限的环境中往往不可用。本文研究仅基于排序反馈的在线学习模型,涵盖瞬时效用排序和时间平均效用排序两种机制,同时考虑全信息(full-information)和盲注(bandit)两种反馈设置。

论文证明了在一般情况下,基于瞬时效用排序的反馈不可能实现次线性遗憾。但在效用序列具有次线性总变分的额外假设下,作者提出了新算法实现次线性遗憾;对于全信息时间平均效用排序,该额外假设可以移除。作为推论,当博弈中所有参与者遵循该算法时,重复博弈收敛至近似粗相关均衡。论文还在在线 LLM 路由任务上验证了算法的有效性。

🤖 AI 点评

排序反馈比数值反馈更接近真实世界的用户交互模式——人们更容易回答「A 比 B 好」而不是「A 的效用是 7.3」。将这一范式引入 LLM 路由,意味着可以在不暴露用户偏好细节的前提下持续优化模型选择策略。Plackett-Luce 模型下的不可能性结果尤其值得关注:它提醒我们,某些看似宽松的反馈机制本质上仍然携带了过多信息。


标签: