Tag: agent

All the articles with the tag "agent".

7.0
Pneuma – instant desktop computing with LLM-generated WASM apps
2026年04月25日
· Hacker News· 04/26 08:31 采集
Desktop computing environment where LLM generates self-contained Rust/WASM apps under 1 second, JIT-executed in sandboxed Wasmtime with GPU rendering.
6.5
awesome-agent-skills
2026年04月22日
· GitHub Trending· 04/22 12:31 采集
Curated collection of 1000+ agent skills compatible with Claude Code, Codex, Gemini CLI, Cursor
5.0
AI research lab NeoCognition lands $40M seed to build agents that learn like humans
2026年04月22日
· TechCrunch· 04/22 04:32 采集
5.5
topoteretes / cognee
2026年04月17日
· GitHub Trending· 04/17 06:31 采集
Cognee — 号称 6 行代码即可使用的 AI Agent 记忆知识引擎
5.0
EvoMap / evolver
2026年04月17日
· GitHub Trending· 04/17 06:31 采集
Evolver — 基于 GEP（Genome Evolution Protocol）的 AI Agent 自演化引擎，JavaScript 实现，3000+ 星
6.5
Open Agents（Vercel）：云端 Agent 构建开源模板
2026年04月16日
· GitHub Trending· 04/16 18:33 采集
Vercel Labs 开源的云端 Agent 构建模板
7.0
GenericAgent：自进化 Agent——从种子技能树到全系统控制
2026年04月16日
· GitHub Trending· 04/16 18:33 采集
自进化 Agent 项目，从种子技能树生长实现全系统控制，声称降低 6x token 消耗
5.4
SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support
2026年04月13日
· arXiv cs.AI· 04/13 12:31 采集
SkillForge 提出面向企业云技术支持场景的 domain-specific agent 技能自演化框架，通过追踪执行失败并反溯到技能缺陷来驱动持续精炼。
6.2
Process Reward Agents for Steering Knowledge-Intensive Reasoning
2026年04月13日
· arXiv cs.AI· 04/13 12:31 采集
Process Reward Agents 提出针对知识密集型推理的新型训练范式——在数学/代码等可验证领域之外的推理任务中，如何设计有效的 process reward model 来引导 CoT 质量。
6.6
HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?
2026年04月13日
· arXiv cs.AI· 04/13 12:31 采集
HiL-Bench 是首个专门评估 AI agent「判断力」的 benchmark——不是给完美指令打分，而是测量 agent 在规格不完整或模糊时是否能识别不确定性并主动寻求人类帮助。
5.5
DRBENCHER: Can Your Agent Identify the Entity, Retrieve Its Properties and Do the Math?
2026年04月13日
· arXiv cs.AI· 04/13 12:31 采集
DRBENCHER 是一个合成 benchmark 生成器，专门生成需要同时进行网页浏览和多步计算的深度研究问题，用于评估 deep research agent 在真实研究场景中的表现。
6.5
SEA-Eval: A Benchmark for Evaluating Self-Evolving Agents Beyond Episodic Assessment
2026年04月13日
· arXiv cs.AI· 04/13 12:31 采集
SEA-Eval 首次提出超越 episode 内评估的 self-evolving agent benchmark 框架，评估 agent 是否能在任务间积累经验、优化策略、进化工具集——而非每次都从零开始。
6.8
美军自研战斗聊天机器人 Victor：用真实军事数据训练的任务情报助手
2026年04月09日
· Feed: Artificial Intelligence Latest· 04/09 08:31 采集
美国陆军正在开发名为 Victor 的 AI 聊天机器人，基于真实军事数据训练，为士兵提供任务关键信息，标志着军方自建 AI 系统的新方向。
7.6
Anthropic 推出 Claude Managed Agents：降低企业构建 AI Agent 的门槛
2026年04月09日
· Feed: Artificial Intelligence Latest· 04/09 08:31 采集
Anthropic 发布新产品 Managed Agents，旨在解决企业构建 AI Agent 时最困难的基础设施和编排问题，进一步降低 Claude 在企业 Agent 场景的采用门槛。
6.7
Astropad Workbench：专为 AI Agent 设计的远程桌面
2026年04月09日
· TechCrunch· 04/09 04:31 采集
Astropad 推出 Workbench，将远程桌面重新定义为 AI Agent 监控工具，支持从 iPhone/iPad 低延迟操控 Mac Mini 上的 Agent
7.6
GitHub Copilot CLI推出「Rubber Duck」：用第二个模型给Agent计划做代码审查
2026年04月07日
· The GitHub Blog· 04/07 12:32 采集
GitHub在Copilot CLI中实验性地引入Rubber Duck模式，让来自不同AI家族的第二模型独立审查Agent的计划和执行，在关键节点提供纠错反馈
7.5
Anthropic says Claude Code subscribers will need to pay extra for OpenClaw usage
2026年04月05日
· 04/05 02:32 采集
Anthropic 宣布 Claude Code 订阅用户使用 OpenClaw 等第三方工具将需要额外付费，Agent 生态定价模式迎来重大变化。
8.5
GitHub Copilot CLI 推出 /fleet 功能：多个 Agent 同时协作编程
2026年04月03日
· GitHub Blog· 04/03 18:31 采集
GitHub 在 Copilot CLI 中引入 /fleet 命令，支持同时运行多个 Agent 并行完成不同任务。
8.0
Cursor 发布全新 AI Agent 体验，正面挑战 Claude Code 和 Codex
2026年04月03日
· WIRED· 04/03 18:31 采集
Cursor 推出独立 Agent 模式，能在 IDE 外自主执行任务，直接对标 Claude Code 和 OpenAI Codex。
7.5
Simon Willison 谈 Agentic Engineering：从工具构建到 Agent 工程的范式转变
2026年04月03日
· Simon Willison's Weblog· 04/03 18:31 采集
Simon Willison 在 Lenny's Podcast 深度讨论 agentic engineering，提出 Agent 工程与传统软件工程的核心差异。

Tag: agent

Pneuma – instant desktop computing with LLM-generated WASM apps

awesome-agent-skills

AI research lab NeoCognition lands $40M seed to build agents that learn like humans

topoteretes / cognee

EvoMap / evolver

Open Agents（Vercel）：云端 Agent 构建开源模板

GenericAgent：自进化 Agent——从种子技能树到全系统控制

SkillForge: Forging Domain-Specific, Self-Evolving Agent Skills in Cloud Technical Support

Process Reward Agents for Steering Knowledge-Intensive Reasoning

HiL-Bench (Human-in-Loop Benchmark): Do Agents Know When to Ask for Help?

DRBENCHER: Can Your Agent Identify the Entity, Retrieve Its Properties and Do the Math?

SEA-Eval: A Benchmark for Evaluating Self-Evolving Agents Beyond Episodic Assessment

美军自研战斗聊天机器人 Victor：用真实军事数据训练的任务情报助手

Anthropic 推出 Claude Managed Agents：降低企业构建 AI Agent 的门槛

Astropad Workbench：专为 AI Agent 设计的远程桌面

GitHub Copilot CLI推出「Rubber Duck」：用第二个模型给Agent计划做代码审查

Anthropic says Claude Code subscribers will need to pay extra for OpenClaw usage

GitHub Copilot CLI 推出 /fleet 功能：多个 Agent 同时协作编程

Cursor 发布全新 AI Agent 体验，正面挑战 Claude Code 和 Codex

Simon Willison 谈 Agentic Engineering：从工具构建到 Agent 工程的范式转变