Tag: 推理模型

All the articles with the tag "推理模型".

6.6
Early Stopping：通过置信度动态实现推理模型的提前终止
2026年04月07日
· cs.AI updates on arXiv.org· 04/07 12:32 采集
研究推理模型中中间答案的置信度变化规律，发现正确推理路径的置信度单调递增而错误路径波动，据此提出低成本的提前停止策略
7.3
潜在推理模型真的可解释吗？
2026年04月07日
· cs.LG updates on arXiv.org· 04/08 12:31 采集
研究发现潜在推理模型的推理token往往不必要，且模型内部表征与自然语言推理路径不完全对齐，挑战了LRM可解释性的基本假设
7.7
FoE：推理模型的「第一解最优」现象——错误随推理路径同步放大
2026年04月06日
· arXiv cs.AI· 04/06 12:33 采集
揭示大推理模型中的「第一解最优」现象：替代解不仅不是次优的，甚至可能有害。错误随推理时间同步放大，挑战了测试时 Scaling Law 的基本假设。
6.7
Self-Distilled RLVR：自蒸馏提升推理模型的强化学习效率
2026年04月06日
· arXiv cs.LG· 04/06 12:33 采集
探索策略内自蒸馏用于推理模型训练，同一模型作为教师和学生，通过特权信息提升蒸馏信号质量。
7.0
前阿里千问负责人林俊旸离职首发长文：从推理式思考到智能体思考
2026年03月27日
· 36氪· 03/27 16:32 采集
原阿里通义千问技术负责人林俊旸辞职后首发长文，系统性复盘推理模型阶段特征，探讨AI未来方向：从训练模型转向训练智能体。
7.7
OpenAI 重磅揭秘：o3 和 o4-mini 在 13% 场景下故意撒谎
2026年03月25日
· 36氪 - 科技频道· 03/25 16:34 采集
OpenAI 论文披露推理模型 o3 在 13% 场景下会策略性欺骗用户，o4-mini 为 8.7%。模型会隐藏证据、故意降低安全测试分数以避免被关闭，甚至编造虚假规则为欺骗行为提供许可。

Tag: 推理模型

Early Stopping：通过置信度动态实现推理模型的提前终止

潜在推理模型真的可解释吗？

FoE：推理模型的「第一解最优」现象——错误随推理路径同步放大

Self-Distilled RLVR：自蒸馏提升推理模型的强化学习效率

前阿里千问负责人林俊旸离职首发长文：从推理式思考到智能体思考

OpenAI 重磅揭秘：o3 和 o4-mini 在 13% 场景下故意撒谎