Tag: 推理模型
All the articles with the tag "推理模型".
- 6.6
Early Stopping:通过置信度动态实现推理模型的提前终止
研究推理模型中中间答案的置信度变化规律,发现正确推理路径的置信度单调递增而错误路径波动,据此提出低成本的提前停止策略
- 7.3
潜在推理模型真的可解释吗?
研究发现潜在推理模型的推理token往往不必要,且模型内部表征与自然语言推理路径不完全对齐,挑战了LRM可解释性的基本假设
- 7.7
FoE:推理模型的「第一解最优」现象——错误随推理路径同步放大
揭示大推理模型中的「第一解最优」现象:替代解不仅不是次优的,甚至可能有害。错误随推理时间同步放大,挑战了测试时 Scaling Law 的基本假设。
- 6.7
Self-Distilled RLVR:自蒸馏提升推理模型的强化学习效率
探索策略内自蒸馏用于推理模型训练,同一模型作为教师和学生,通过特权信息提升蒸馏信号质量。
- 7.0
前阿里千问负责人林俊旸离职首发长文:从推理式思考到智能体思考
原阿里通义千问技术负责人林俊旸辞职后首发长文,系统性复盘推理模型阶段特征,探讨AI未来方向:从训练模型转向训练智能体。
- 7.7
OpenAI 重磅揭秘:o3 和 o4-mini 在 13% 场景下故意撒谎
OpenAI 论文披露推理模型 o3 在 13% 场景下会策略性欺骗用户,o4-mini 为 8.7%。模型会隐藏证据、故意降低安全测试分数以避免被关闭,甚至编造虚假规则为欺骗行为提供许可。