Tag: research

All the articles with the tag "research".

6.2
Process Reward Agents for Steering Knowledge-Intensive Reasoning
2026年04月13日
· arXiv cs.AI· 04/13 12:31 采集
Process Reward Agents 提出针对知识密集型推理的新型训练范式——在数学/代码等可验证领域之外的推理任务中，如何设计有效的 process reward model 来引导 CoT 质量。
7.0
Anthropic 成立专门科学研究部门：将 AI 应用于科学发现
2026年03月23日
· Anthropic Research· 03/24 08:45 采集
Anthropic 宣布成立 Anthropic Science，一个专注于将 AI 应用于科学发现的 dedicated research division。
7.7
Anthropic 首次量化 Agent 自主性：百万次交互数据揭示真实使用模式
2026年03月21日
· Anthropic Research· 03/21 14:45 采集
基于 Claude Code 数百万次交互的实证研究，揭示了 Agent 自主运行时长的增长趋势和用户信任演进
8.2
HorizonMath: Measuring AI Progress Toward Mathematical Discovery
2026年03月16日
New benchmark of 100+ unsolved math problems with automated verification. GPT 5.4 Pro proposes solutions improving on best-known results for two problems.
7.6
Mamba-3: Improved Sequence Modeling using State Space Principles
2026年03月16日
Mamba-3 advances performance-efficiency frontier with improved recurrence, complex-valued state updates, and MIMO formulation.
8.0
Google 研究提出贝叶斯教学法，让 LLM 学会概率推理更新
2026年03月15日
· InfoQ
Google 研究人员提出一种新训练方法，通过让大模型模拟最优贝叶斯系统的预测，使其具备随新证据动态更新信念的能力，解决了 LLM 推理僵化的核心问题。
8.5
Anthropic 研究揭示 AI 对劳动力市场的真实冲击：哪些职业最先受影响
2026年03月15日
· Euronews
Anthropic 发布基于真实 Claude 使用数据的劳动力市场研究，引入「观测暴露度」新指标，发现 AI 正优先渗透高薪专业岗位，而高暴露度职业的就业增速明显低于低暴露度职业。
7.0
Tree Search Distillation：用 PPO 让语言模型学会「先搜后答」
2026年03月15日
· Hacker News / ayushtambde.com
研究者提出树搜索蒸馏方法，通过 PPO 将 MCTS 等树搜索过程内化到 LLM 推理中，推理时无需额外搜索即可受益。
8.0
AI 首次验证 Fields 奖获奖数学证明，New Scientist：数学正在经历史上最大变革
2026年03月13日
· New Scientist
AI 系统成功验证了 Maryna Viazovska 的球堆积问题证明（2022 Fields 奖），OpenAI 和 Google DeepMind 的 AI 模型也在尝试解决 First Proof 难题。
8.5
LLM 作为计算机——在 Transformer 内部执行程序，推理速度指数级提升
2026年03月13日
· Hacker News
Percepta AI 提出全新架构：将程序直接编码进 Transformer 权重中执行，无需传统计算硬件，推理速度可达指数级加速。Hacker News 排名第一。
8.5
Ai2 发布 MolmoBot：纯合成数据训练，零样本迁移到真实机器人
2026年03月13日
· Allen Institute for AI
Allen Institute for AI 开源 MolmoBot，首次实现无需真实数据的零样本 sim-to-real 迁移，模型已在真实机械臂上验证。
8.0
2026 年后训练技术全景：GRPO、DAPO、RLVR 如何取代 RLHF
2026年03月13日
· LLM Stats Research
深度综述 GRPO、DAPO、RLVR 等后训练方法如何成为主流，以及合成自博弈数据为何让 RLHF 退出历史舞台。
7.5
SWE-Bench 上 LLM 的 PR 合并率没有提高
2026年03月13日
· Entropic Thoughts
研究发现尽管 SWE-Bench 基准分数持续上升，LLM 生成的 PR 实际被合并进主分支的比例并未改善，暗示评测与现实脱节。
6.5
皮尤研究：5 年调查揭示美国人对 AI 的 13 个核心认知
2026年03月13日
· Pew Research Center
皮尤研究中心发布五年跟踪调查，揭示美国公众对 AI 的态度：谨慎但不排斥，对医疗和教育应用最为矛盾。
8.5
Anthropic 成立研究机构，专注 AI 社会风险
2026年03月12日
· The Verge
Anthropic 宣布成立 Anthropic Institute，由联合创始人 Jack Clark 领导，聚焦 AI 对社会最深远影响的研究与预警。
8.0
OpenAI 研究副总裁暗示 AGI 已经到来
2026年03月12日
· OfficeChai
OpenAI 研究副总裁 Aidan Clark 在 X 上发出神秘推文：「当历史被书写，AGI Day 将是今日之前」，引发行业广泛解读。
7.5
Anthropic 研究：真实世界中 AI 使用的「去权力化」模式
2026年03月12日
· Anthropic
Anthropic 发布新研究，分析现实场景中 AI 助手如何可能在无意间强化用户的心理依赖与自主能力丧失，并探讨如何设计更赋权的 AI 交互。
7.0
Anthropic AI 流利度指数：衡量全球 AI 使用技能的新框架
2026年03月12日
· Anthropic
Anthropic 发布 AI Fluency Index（AI 流利度指数），提供一套系统化框架评估个人和组织使用 AI 工具的真实能力水平，不仅限于工具使用频率。
7.0
纵向研究初步数据：AI 带来的生产力提升是 10%，而非 90%
2026年03月12日
· DX Newsletter / Hacker News
DX Newsletter 发布 AI 影响纵向研究初步数据，发现真实软件开发场景下 AI 工具的生产力提升约为 10-20%，远低于许多工具声称的数倍提效，引发开发者社区广泛讨论。
8.7
METR 研究：大量通过 SWE-bench 的 PR 实际上不会被合并
2026年03月10日
· METR / Hacker News
METR 研究发现，许多在 SWE-bench 上获得通过评分的 AI 生成 PR，其质量远达不到实际代码审查标准。

Tag: research

Process Reward Agents for Steering Knowledge-Intensive Reasoning

Anthropic 成立专门科学研究部门：将 AI 应用于科学发现

Anthropic 首次量化 Agent 自主性：百万次交互数据揭示真实使用模式

HorizonMath: Measuring AI Progress Toward Mathematical Discovery

Mamba-3: Improved Sequence Modeling using State Space Principles

Google 研究提出贝叶斯教学法，让 LLM 学会概率推理更新

Anthropic 研究揭示 AI 对劳动力市场的真实冲击：哪些职业最先受影响

Tree Search Distillation：用 PPO 让语言模型学会「先搜后答」

AI 首次验证 Fields 奖获奖数学证明，New Scientist：数学正在经历史上最大变革

LLM 作为计算机——在 Transformer 内部执行程序，推理速度指数级提升

Ai2 发布 MolmoBot：纯合成数据训练，零样本迁移到真实机器人

2026 年后训练技术全景：GRPO、DAPO、RLVR 如何取代 RLHF

SWE-Bench 上 LLM 的 PR 合并率没有提高

皮尤研究：5 年调查揭示美国人对 AI 的 13 个核心认知

Anthropic 成立研究机构，专注 AI 社会风险

OpenAI 研究副总裁暗示 AGI 已经到来

Anthropic 研究：真实世界中 AI 使用的「去权力化」模式

Anthropic AI 流利度指数：衡量全球 AI 使用技能的新框架

纵向研究初步数据：AI 带来的生产力提升是 10%，而非 90%

METR 研究：大量通过 SWE-bench 的 PR 实际上不会被合并