Tag: 分布匹配
All the articles with the tag "分布匹配".
- 7.0
Revisiting On-Policy Distillation:实证失败模式与简单修复
重新审视 OPD 在长程场景下的脆弱性,揭示采样 token 变体将分布匹配简化为单 token 信号的系统性问题。
All the articles with the tag "分布匹配".
重新审视 OPD 在长程场景下的脆弱性,揭示采样 token 变体将分布匹配简化为单 token 信号的系统性问题。