Tag: reasoning

All the articles with the tag "reasoning".

7.0
A Survey of Scaling in Large Language Model Reasoning
2026年04月23日
· arXiv cs.AI· 04/23 14:32 采集
LLM推理Scaling Laws综合综述：推理能力的scaling比数据和模型scaling更复杂，甚至可能产生负面影响。
7.0
Pause or Fabricate? Training Language Models for Grounded Reasoning
2026年04月22日
· cs.CL updates on arXiv.org· 04/22 14:31 采集
LLM在输入不完整时产生置信但不可靠结论的失败模式——ungrounded reasoning，源于推理边界感知缺失而非推理能力不足
6.2
Process Reward Agents for Steering Knowledge-Intensive Reasoning
2026年04月13日
· arXiv cs.AI· 04/13 12:31 采集
Process Reward Agents 提出针对知识密集型推理的新型训练范式——在数学/代码等可验证领域之外的推理任务中，如何设计有效的 process reward model 来引导 CoT 质量。
6.4
SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks
2026年04月13日
· arXiv cs.AI· 04/13 12:31 采集
SPPO 提出序列级 PPO 算法，解决 token-level PPO 在长 Chain-of-Thought 推理任务中的时序信用分配困难和高内存消耗两大瓶颈，为 GRPO 等替代方案提供了效率更高的训练路径。
8.0
Nemotron-Cascade 2：30B MoE 仅激活 3B，IMO/IOI/ICPC 金牌级开源推理模型
2026年03月20日
· arXiv· 03/20 14:35 采集
NVIDIA 发布 30B MoE 开源模型，Cascade RL + 多领域蒸馏技术让小模型达到三大竞赛金牌水平
8.0
Introducing Mistral Small 4
2026年03月16日
Mistral releases 119B parameter Apache 2 licensed model unifying reasoning, multimodal, and agentic coding capabilities into a single model.
8.0
Google 研究提出贝叶斯教学法，让 LLM 学会概率推理更新
2026年03月15日
· InfoQ
Google 研究人员提出一种新训练方法，通过让大模型模拟最优贝叶斯系统的预测，使其具备随新证据动态更新信念的能力，解决了 LLM 推理僵化的核心问题。
7.0
Tree Search Distillation：用 PPO 让语言模型学会「先搜后答」
2026年03月15日
· Hacker News / ayushtambde.com
研究者提出树搜索蒸馏方法，通过 PPO 将 MCTS 等树搜索过程内化到 LLM 推理中，推理时无需额外搜索即可受益。
9.2
OpenAI 发布 GPT-5.4 Thinking 和 GPT-5.4 Pro：面向专业工作的最强前沿模型
2026年03月12日
· OpenAI
OpenAI 正式推出 GPT-5.4 系列，包括 GPT-5.4 Thinking（集成思维链推理）和 GPT-5.4 Pro（最高质量选项），同步支持 1M token 上下文窗口，面向 Codex 和 API 全面开放。
8.5
OpenAI 研究：推理模型难以控制自身思维链
2026年03月10日
· OpenAI
OpenAI 研究表明，推理模型在 Chain-of-Thought 过程中会出现不可控的涌现行为，但这种不可控性可能是有益的。
8.3
Google DeepMind 发布 Gemini Deep Think：重新定义科学研究
2026年03月05日
· Google DeepMind
DeepMind 发布 Gemini Deep Think 最新版本，在奥林匹克级别数学问题上大幅超越前代，推动 AI 辅助科学发现。

Tag: reasoning

A Survey of Scaling in Large Language Model Reasoning

Pause or Fabricate? Training Language Models for Grounded Reasoning

Process Reward Agents for Steering Knowledge-Intensive Reasoning

SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks

Nemotron-Cascade 2：30B MoE 仅激活 3B，IMO/IOI/ICPC 金牌级开源推理模型

Introducing Mistral Small 4

Google 研究提出贝叶斯教学法，让 LLM 学会概率推理更新

Tree Search Distillation：用 PPO 让语言模型学会「先搜后答」

OpenAI 发布 GPT-5.4 Thinking 和 GPT-5.4 Pro：面向专业工作的最强前沿模型

OpenAI 研究：推理模型难以控制自身思维链

Google DeepMind 发布 Gemini Deep Think：重新定义科学研究