Skip to content
星际流动

Personalized RewardBench: Evaluating Reward Models with Human Aligned Personalization

发布
采集
学术前沿 6.0 分 — 个性化Reward模型评测基准,填补了RM个性化评估空白
原文: arXiv

评分 6 · 来源:arXiv · 发布于 2026-04-09

评分依据:个性化Reward模型评测基准,填补了RM个性化评估空白