Tag: agent
All the articles with the tag "agent".
- 7.0
Pneuma – instant desktop computing with LLM-generated WASM apps
Desktop computing environment where LLM generates self-contained Rust/WASM apps under 1 second, JIT-executed in sandboxed Wasmtime with GPU rendering.
- 6.5
awesome-agent-skills
Curated collection of 1000+ agent skills compatible with Claude Code, Codex, Gemini CLI, Cursor
- 5.5
- 5.0
EvoMap / evolver
Evolver — 基于 GEP(Genome Evolution Protocol)的 AI Agent 自演化引擎,JavaScript 实现,3000+ 星
- 6.5
- 7.0
GenericAgent:自进化 Agent——从种子技能树到全系统控制
自进化 Agent 项目,从种子技能树生长实现全系统控制,声称降低 6x token 消耗
- 5.4
SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support
SkillForge 提出面向企业云技术支持场景的 domain-specific agent 技能自演化框架,通过追踪执行失败并反溯到技能缺陷来驱动持续精炼。
- 6.2
Process Reward Agents for Steering Knowledge-Intensive Reasoning
Process Reward Agents 提出针对知识密集型推理的新型训练范式——在数学/代码等可验证领域之外的推理任务中,如何设计有效的 process reward model 来引导 CoT 质量。
- 6.6
HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?
HiL-Bench 是首个专门评估 AI agent「判断力」的 benchmark——不是给完美指令打分,而是测量 agent 在规格不完整或模糊时是否能识别不确定性并主动寻求人类帮助。
- 5.5
DRBENCHER: Can Your Agent Identify the Entity, Retrieve Its Properties and Do the Math?
DRBENCHER 是一个合成 benchmark 生成器,专门生成需要同时进行网页浏览和多步计算的深度研究问题,用于评估 deep research agent 在真实研究场景中的表现。
- 6.5
SEA-Eval: A Benchmark for Evaluating Self-Evolving Agents Beyond Episodic Assessment
SEA-Eval 首次提出超越 episode 内评估的 self-evolving agent benchmark 框架,评估 agent 是否能在任务间积累经验、优化策略、进化工具集——而非每次都从零开始。
- 6.8
美军自研战斗聊天机器人 Victor:用真实军事数据训练的任务情报助手
美国陆军正在开发名为 Victor 的 AI 聊天机器人,基于真实军事数据训练,为士兵提供任务关键信息,标志着军方自建 AI 系统的新方向。
- 7.6
Anthropic 推出 Claude Managed Agents:降低企业构建 AI Agent 的门槛
Anthropic 发布新产品 Managed Agents,旨在解决企业构建 AI Agent 时最困难的基础设施和编排问题,进一步降低 Claude 在企业 Agent 场景的采用门槛。
- 6.7
Astropad Workbench:专为 AI Agent 设计的远程桌面
Astropad 推出 Workbench,将远程桌面重新定义为 AI Agent 监控工具,支持从 iPhone/iPad 低延迟操控 Mac Mini 上的 Agent
- 7.6
GitHub Copilot CLI推出「Rubber Duck」:用第二个模型给Agent计划做代码审查
GitHub在Copilot CLI中实验性地引入Rubber Duck模式,让来自不同AI家族的第二模型独立审查Agent的计划和执行,在关键节点提供纠错反馈
- 7.5
Anthropic says Claude Code subscribers will need to pay extra for OpenClaw usage
· 04/05 02:32 采集Anthropic 宣布 Claude Code 订阅用户使用 OpenClaw 等第三方工具将需要额外付费,Agent 生态定价模式迎来重大变化。
- 8.5
GitHub Copilot CLI 推出 /fleet 功能:多个 Agent 同时协作编程
GitHub 在 Copilot CLI 中引入 /fleet 命令,支持同时运行多个 Agent 并行完成不同任务。
- 8.0
Cursor 发布全新 AI Agent 体验,正面挑战 Claude Code 和 Codex
Cursor 推出独立 Agent 模式,能在 IDE 外自主执行任务,直接对标 Claude Code 和 OpenAI Codex。
- 7.5
Simon Willison 谈 Agentic Engineering:从工具构建到 Agent 工程的范式转变
Simon Willison 在 Lenny's Podcast 深度讨论 agentic engineering,提出 Agent 工程与传统软件工程的核心差异。