评分 7 · 来源: · 发布于 2026-05-01 评分依据:Exploration Hacking:LLM能否学会抵抗RL训练?对post-training范式的重要质疑
评分 7 · 来源: · 发布于 2026-05-01
评分依据:Exploration Hacking:LLM能否学会抵抗RL训练?对post-training范式的重要质疑