Tag: research
All the articles with the tag "research".
- 6.2
Process Reward Agents for Steering Knowledge-Intensive Reasoning
Process Reward Agents 提出针对知识密集型推理的新型训练范式——在数学/代码等可验证领域之外的推理任务中,如何设计有效的 process reward model 来引导 CoT 质量。
- 7.0
Anthropic 成立专门科学研究部门:将 AI 应用于科学发现
Anthropic 宣布成立 Anthropic Science,一个专注于将 AI 应用于科学发现的 dedicated research division。
- 7.7
Anthropic 首次量化 Agent 自主性:百万次交互数据揭示真实使用模式
基于 Claude Code 数百万次交互的实证研究,揭示了 Agent 自主运行时长的增长趋势和用户信任演进
- 8.2
HorizonMath: Measuring AI Progress Toward Mathematical Discovery
New benchmark of 100+ unsolved math problems with automated verification. GPT 5.4 Pro proposes solutions improving on best-known results for two problems.
- 7.6
Mamba-3: Improved Sequence Modeling using State Space Principles
Mamba-3 advances performance-efficiency frontier with improved recurrence, complex-valued state updates, and MIMO formulation.
- 8.0
Google 研究提出贝叶斯教学法,让 LLM 学会概率推理更新
· InfoQGoogle 研究人员提出一种新训练方法,通过让大模型模拟最优贝叶斯系统的预测,使其具备随新证据动态更新信念的能力,解决了 LLM 推理僵化的核心问题。
- 8.5
Anthropic 研究揭示 AI 对劳动力市场的真实冲击:哪些职业最先受影响
· EuronewsAnthropic 发布基于真实 Claude 使用数据的劳动力市场研究,引入「观测暴露度」新指标,发现 AI 正优先渗透高薪专业岗位,而高暴露度职业的就业增速明显低于低暴露度职业。
- 7.0
Tree Search Distillation:用 PPO 让语言模型学会「先搜后答」
研究者提出树搜索蒸馏方法,通过 PPO 将 MCTS 等树搜索过程内化到 LLM 推理中,推理时无需额外搜索即可受益。
- 8.0
AI 首次验证 Fields 奖获奖数学证明,New Scientist:数学正在经历史上最大变革
AI 系统成功验证了 Maryna Viazovska 的球堆积问题证明(2022 Fields 奖),OpenAI 和 Google DeepMind 的 AI 模型也在尝试解决 First Proof 难题。
- 8.5
LLM 作为计算机——在 Transformer 内部执行程序,推理速度指数级提升
Percepta AI 提出全新架构:将程序直接编码进 Transformer 权重中执行,无需传统计算硬件,推理速度可达指数级加速。Hacker News 排名第一。
- 8.5
Ai2 发布 MolmoBot:纯合成数据训练,零样本迁移到真实机器人
Allen Institute for AI 开源 MolmoBot,首次实现无需真实数据的零样本 sim-to-real 迁移,模型已在真实机械臂上验证。
- 8.0
2026 年后训练技术全景:GRPO、DAPO、RLVR 如何取代 RLHF
深度综述 GRPO、DAPO、RLVR 等后训练方法如何成为主流,以及合成自博弈数据为何让 RLHF 退出历史舞台。
- 7.5
SWE-Bench 上 LLM 的 PR 合并率没有提高
研究发现尽管 SWE-Bench 基准分数持续上升,LLM 生成的 PR 实际被合并进主分支的比例并未改善,暗示评测与现实脱节。
- 6.5
皮尤研究:5 年调查揭示美国人对 AI 的 13 个核心认知
皮尤研究中心发布五年跟踪调查,揭示美国公众对 AI 的态度:谨慎但不排斥,对医疗和教育应用最为矛盾。
- 8.5
Anthropic 成立研究机构,专注 AI 社会风险
Anthropic 宣布成立 Anthropic Institute,由联合创始人 Jack Clark 领导,聚焦 AI 对社会最深远影响的研究与预警。
- 8.0
OpenAI 研究副总裁暗示 AGI 已经到来
OpenAI 研究副总裁 Aidan Clark 在 X 上发出神秘推文:「当历史被书写,AGI Day 将是今日之前」,引发行业广泛解读。
- 7.5
Anthropic 研究:真实世界中 AI 使用的「去权力化」模式
Anthropic 发布新研究,分析现实场景中 AI 助手如何可能在无意间强化用户的心理依赖与自主能力丧失,并探讨如何设计更赋权的 AI 交互。
- 7.0
Anthropic AI 流利度指数:衡量全球 AI 使用技能的新框架
Anthropic 发布 AI Fluency Index(AI 流利度指数),提供一套系统化框架评估个人和组织使用 AI 工具的真实能力水平,不仅限于工具使用频率。
- 7.0
纵向研究初步数据:AI 带来的生产力提升是 10%,而非 90%
DX Newsletter 发布 AI 影响纵向研究初步数据,发现真实软件开发场景下 AI 工具的生产力提升约为 10-20%,远低于许多工具声称的数倍提效,引发开发者社区广泛讨论。
- 8.7
METR 研究:大量通过 SWE-bench 的 PR 实际上不会被合并
METR 研究发现,许多在 SWE-bench 上获得通过评分的 AI 生成 PR,其质量远达不到实际代码审查标准。