Google AI 团队发布了名为 Groundsource 的新方法论,利用 Gemini 模型对全球数十年的公开新闻报道进行分析,从 500 万篇报道中提取出超过 260 万次历史洪涝事件,构建了一个覆盖 150 多个国家的带地理标记时间序列数据集。
这是同类项目中首次用 LLM 完成此类规模的非结构化数据到结构化历史数据的转化。
核心要点
- 规模:分析了来自全球的 500 万篇新闻,识别出 260 万次洪涝事件
- 覆盖:150+ 国,重点弥补发展中国家缺乏基础设施观测记录的数据空白
- 应用:为山洪、城市内涝等”快速发展型灾害”提供历史基准数据,提升预报精度
- 意义:证明了 Gemini 在科学级数据挖掘任务上的实际落地能力,不只是对话工具
这一成果表明,LLM 在将人类语言记录转化为机器可读科学数据方面具有巨大潜力,尤其在传统传感器覆盖不足的地区。