Skip to content
星际流动

EFF 警告:封锁 Internet Archive 挡不住 AI,却会抹除互联网历史记录

发布
采集
政策伦理 7.3 分 — EFF 深度分析出版商封锁 Internet Archive 的法律逻辑与现实后果,论据充分,议题关系到 AI 训练数据生态的根基
原文: EFF

评分 7.35 · 来源:EFF · 发布于 2026-03-22

评分依据:EFF 深度分析出版商封锁 Internet Archive 的法律逻辑与现实后果,论据充分

要点

纽约时报近期开始通过超越 robots.txt 的技术手段阻止 Internet Archive 爬取其网站,卫报等出版商也跟进效仿。EFF 指出,出版商此举的动机是防止 AI 公司抓取新闻内容进行训练,但这一策略存在根本性错位——Internet Archive 是非营利数字图书馆,不是商业 AI 系统。封锁它不会阻止 AI 训练,却会让依赖 Wayback Machine 的记者、研究者和法院失去珍贵的历史记录。

EFF 从法律角度论证,建立可搜索索引属于合理使用(fair use),援引 Google Books 案例作为先例。文章警告,如果出版商将 Internet Archive 排除在外,许多已被编辑、修改或删除的文章将彻底失去原始记录——这些档案往往是唯一可靠的版本来源。当前 AI 版权诉讼的战场不应波及非营利的存档机构。

🤖 AI 点评

这则消息揭示了 AI 版权战中一个危险的「误伤」现象:出版商为了对抗 AI 公司,正在拆除自己赖以生存的历史记录基础设施。Wayback Machine 存储了超过一万亿个网页,是数字时代最接近「公共档案馆」的存在。如果这个先例被广泛接受,我们可能会在五年后发现,2020 年代初期的大量网页已经永远消失了——不是因为技术故障,而是因为法律恐惧。


标签: