Skip to content
星际流动

Reward Models Are Secretly Value Functions: Temporally Coherent Reward Modeling

发布
采集
行业动态 6.5 分 — 将reward modeling与RL hindsight思想结合,用于金融时间序列 advisory等需要事后信号的场景,思路新颖。
原文: arxiv.org

评分 6.5 · 来源: · 发布于

评分依据:将reward modeling与RL hindsight思想结合,用于金融时间序列 advisory等需要事后信号的场景,思路新颖。