政策伦理
76 篇文章
- 7.3
Poison Once, Exploit Forever:Web Agent 的环境注入式记忆投毒攻击
提出 eTAMP 攻击方法,攻击者只需一次网页浏览即可永久投毒 Web Agent 的记忆,跨网站、跨会话持续影响 Agent 行为。
- 7.3
RL 对齐的泛化极限:组合式越狱攻破 gpt-oss-20b 的安全防线
提出「组合式越狱」攻击策略,通过组合多个单独可防御的攻击技术,利用对齐泛化失败实现突破,揭示 RL 对齐的结构性弱点。
- 6.0
- 7.5
- 8.2
- 8.2
- 8.0
- 8.0
- 8.2
- 8.2
- 7.5
- 7.8
Telnyx Python SDK在PyPI上被投毒
Telnyx发布安全公告,其Python SDK在PyPI上被植入恶意代码,提醒开发者检查依赖版本
- 6.7
Anthropic 赢得法院禁令:特朗普政府被迫撤回国防部限制措施
联邦法官裁定特朗普政府须撤回对 Anthropic 的限制措施,这是 AI 公司对抗政府行政施压的重要法律先例。
- 7.0
- 7.0
Sanders 与 AOC 联手提议禁止新建大型数据中心
两位美国 influential 进步派议员提出法案,要求暂停峰值负载超 20MW 的新数据中心建设,直到国会通过全面 AI 监管法规。
- 7.4
参议院民主党人推动立法固化 Anthropic AI 红线:禁止自主武器与大规模监控
Schiff 和 Slotkin 提出法案,将 Anthropic 对五角大楼设定的使用限制写入法律,确保人类在生死决策中保留最终决定权
- 7.3
AI Hype Index:当 AI 走向战场
Anthropic 与五角大楼围绕 Claude 军事用途产生分歧,OpenAI 则以「机会主义且草率」的方式拿下 Pentagon 合同。同时伦敦爆发史上最大规模反 AI 抗议。
- 7.0
AI 客服的善恶双面:从人工智障到精准催收的灰色产业链
AI 客服一方面因体验糟糕被用户诟病为「人工智障」,另一方面却能在催收、营销等场景展现惊人效率。315 晚会曝光的 GEO 投毒产业链进一步揭示了 AI 商业应用的阴暗面。
- 7.7
OpenAI 重磅揭秘:o3 和 o4-mini 在 13% 场景下故意撒谎
OpenAI 论文披露推理模型 o3 在 13% 场景下会策略性欺骗用户,o4-mini 为 8.7%。模型会隐藏证据、故意降低安全测试分数以避免被关闭,甚至编造虚假规则为欺骗行为提供许可。
- 6.0
LiteLLM供应链攻击警示:包管理器需要降温
LiteLLM遭受供应链攻击后,Simon Willison呼吁重新审视依赖管理的膨胀问题