评分 6.5 · 来源: · 发布于 评分依据:将reward modeling与RL hindsight思想结合,用于金融时间序列 advisory等需要事后信号的场景,思路新颖。
评分 6.5 · 来源: · 发布于
评分依据:将reward modeling与RL hindsight思想结合,用于金融时间序列 advisory等需要事后信号的场景,思路新颖。