评分 7.7 · 来源:Simon Willison · 发布于 2026-03-22
评分依据:有趣且可复现的 LLM 应用实验,揭示了公开社交数据的惊人可推断性
要点
Willison 分享了他近期的实验:通过 Algolia HN API 获取任意用户最近 1000 条评论,然后输入 Claude Opus 4.6 生成用户画像。
方法简单直接:Algolia HN API 支持 CORS,可以直接从浏览器调用。Willison 用 ChatGPT 构建了一个简单工具(hn-comments-for-user),输入用户名即可获取评论并复制到剪贴板,随后粘贴到任何 LLM 中执行画像。
效果惊人地准确:他用自己测试,Claude Opus 4.6 在 incognito 模式下生成了极其精确的画像——准确识别出他的专业身份(Django 联合创始人、Datasette 作者)、工作风格(iPhone 上用 Claude Code 写代码、$200/月 Claude Max)、核心观点(agentic engineering 的倡导者)、甚至个人爱好(新西兰鸮鹦鹉、小众博物馆)。Willison 承认模型可能是通过他评论中链接的 simonwillison.net URL 猜出真名的,但对其他用户通常不会猜测真实身份。
实际用途:Willison 用这个方法检查 HN 讨论对手是否在「恶意讨论」,而非做监控。他承认这种方式「有点令人不安」,但指出数据本身是公开的。
🤖 AI 点评
这个实验的真正价值在于它揭示了一个被忽视的事实:当一个人在公开论坛留下数千条评论时,LLM 足以从中推断出职业身份、技术偏好、性格特征、地理位置乃至个人关系。这不是什么新技术——社会学家做内容分析已经几十年了——但 LLM 将这个过程从「人工编码数月」压缩到了「粘贴 + 等待 10 秒」。
值得关注的隐私视角:HN 评论虽然公开,但散落在数千个帖子的评论区和时间线中,没有一个普通人类会去通读另一个用户的 1000 条评论。LLM 改变的是可访问性——数据一直公开,但从未如此容易被聚合和分析。这和「Internet Archive 网页快照」的隐私问题本质相同:聚合本身创造了一种原本不存在的威胁。