Skip to content
星际流动

Guardian 深度调查:AI 训练数据供应链的阴暗面,数千人出售身份和隐私数据

发布
采集
政策伦理 7.1 分 — Guardian 调查性报道首次系统揭露 AI 训练数据的灰色采集产业链,具有深度和公共利益价值
原文: The Guardian

评分 7.1 · 来源:The Guardian · 发布于 2026-03-21

评分依据:Guardian 调查性报道首次系统揭露 AI 训练数据的灰色采集产业链,具有深度和公共利益价值

要点

Guardian 的深度调查首次系统揭露了 AI 训练数据采集产业链中的灰色地带。报道发现,数千人通过专门的平台出售自己的身份信息、社交媒体行为数据、浏览习惯甚至私人对话记录,这些数据被中间商打包后出售给 AI 公司用于模型训练。

调查追踪了完整的数据供应链:从数据出售者(多为经济困难群体)到数据经纪商,再到最终的 AI 模型训练用途。部分出售者表示并不清楚自己的数据最终用途,且在出售后发现数据被用于训练商业模型时感到被欺骗。

报道还揭示了数据经纪商的运营模式:利用法律灰色地带收集数据、通过复杂的用户协议规避 consent 要求、以及将个人数据拆分重组以规避隐私法规。

🤖 AI 点评

AI 行业对训练数据来源的讨论大多集中在版权问题上,但 Guardian 这篇报道揭示了另一个维度:数据供应链中活生生的人的隐私被系统性侵蚀。当经济压力驱使个人出售自己的行为数据,而 AI 公司对数据来源的审核形同虚设时,这就不是技术问题而是制度问题了。这篇文章应该被每一个从事数据采集和模型训练的团队阅读——你的训练数据到底从哪里来,是否真的经过了 informed consent?


标签: