基于排序反馈的在线学习与均衡计算——无需数值效用即可训练 LLM 路由

评分 7.1 · 来源：arXiv · 发布于 2026-03-19

评分依据：在仅能观测动作排序（而非数值效用）的条件下设计在线学习算法，理论贡献扎实，且直接演示了 LLM 路由场景的应用。

要点

传统在线学习算法依赖数值效用反馈，但在人类参与的场景或隐私受限的环境中往往不可用。本文研究仅基于排序反馈的在线学习模型，涵盖瞬时效用排序和时间平均效用排序两种机制，同时考虑全信息（full-information）和盲注（bandit）两种反馈设置。

论文证明了在一般情况下，基于瞬时效用排序的反馈不可能实现次线性遗憾。但在效用序列具有次线性总变分的额外假设下，作者提出了新算法实现次线性遗憾；对于全信息时间平均效用排序，该额外假设可以移除。作为推论，当博弈中所有参与者遵循该算法时，重复博弈收敛至近似粗相关均衡。论文还在在线 LLM 路由任务上验证了算法的有效性。

🤖 AI 点评

排序反馈比数值反馈更接近真实世界的用户交互模式——人们更容易回答「A 比 B 好」而不是「A 的效用是 7.3」。将这一范式引入 LLM 路由，意味着可以在不暴露用户偏好细节的前提下持续优化模型选择策略。Plackett-Luce 模型下的不可能性结果尤其值得关注：它提醒我们，某些看似宽松的反馈机制本质上仍然携带了过多信息。