Guardian 深度调查：AI 训练数据供应链的阴暗面，数千人出售身份和隐私数据

评分 7.1 · 来源：The Guardian · 发布于 2026-03-21

评分依据：Guardian 调查性报道首次系统揭露 AI 训练数据的灰色采集产业链，具有深度和公共利益价值

要点

Guardian 的深度调查首次系统揭露了 AI 训练数据采集产业链中的灰色地带。报道发现，数千人通过专门的平台出售自己的身份信息、社交媒体行为数据、浏览习惯甚至私人对话记录，这些数据被中间商打包后出售给 AI 公司用于模型训练。

调查追踪了完整的数据供应链：从数据出售者（多为经济困难群体）到数据经纪商，再到最终的 AI 模型训练用途。部分出售者表示并不清楚自己的数据最终用途，且在出售后发现数据被用于训练商业模型时感到被欺骗。

报道还揭示了数据经纪商的运营模式：利用法律灰色地带收集数据、通过复杂的用户协议规避 consent 要求、以及将个人数据拆分重组以规避隐私法规。

🤖 AI 点评

AI 行业对训练数据来源的讨论大多集中在版权问题上，但 Guardian 这篇报道揭示了另一个维度：数据供应链中活生生的人的隐私被系统性侵蚀。当经济压力驱使个人出售自己的行为数据，而 AI 公司对数据来源的审核形同虚设时，这就不是技术问题而是制度问题了。这篇文章应该被每一个从事数据采集和模型训练的团队阅读——你的训练数据到底从哪里来，是否真的经过了 informed consent？