Google推出Groundsource:用Gemini将新闻转化为灾害预测数据
Google今天推出了Groundsource,这是一种利用Gemini大语言模型将全球非结构化新闻转化为可操作历史数据的全新可扩展方法。首个开放获取的城市山洪数据集包含260万条记录,为更准确的救生预报铺平道路。
自然灾害对全球人口和经济构成持续威胁。每年影响数百万人,造成数十亿美元的直接损失。为了推进气候研究,并最终为社区提供关于自然灾害的充分预警以确保安全,强大的历史基准至关重要。历史数据使全球科学家能够通过水文建模更好地减轻灾害,并在经验证据中验证前瞻性预测。历史记录还为从城市规划到保险和应急响应的实际应用提供信息。
正因如此,我们今天推出Groundsource——一个从非结构化数据中提取经过验证的真实情况的可扩展框架,使我们能够以前所未有的精度绘制灾害的历史足迹。我们首先使用这种方法创建了独特的全球山洪数据集,包含260万个历史洪水事件,覆盖150多个国家。我们将这个山洪数据南宫智能科技集公开提供,为城市地区山洪建模和预测提供可靠的高质量数据来源。同样的方法也有可能应用于构建其他灾害的历史数据集,以加速全球危机韧性工作。
虽然地震等一些自然灾害通过统一的全球传感器网络进行跟踪,但洪水等水文气象灾害缺乏标准化的观测基础设施。准确的山洪预报长期以来严重受阻于缺乏高质量的全球历史数据用于模型训练和验证。这种数据荒漠构成了关键挑战。
现有档案,如基于卫星的全球洪水数据库和达特茅斯洪水观测站,提供了宝贵的淹没足迹,但面临云层干扰、卫星重访时间等物理限制,往往只能捕获大型、持久的灾害。全球灾害警报和协调系统——联合国和欧盟委员会的联合倡议,监测人道主义影响——提供了约10000条记录的重要数据,但主要关注高影响事件。
虽然10000条记录看似可观,但与训练和验证全球规模AI所需的数据相比只是九牛一毛。数据稀缺对于局部或快速移动的灾害(如山洪)尤其成问题,因为这些事件往往未在传统灾害数据库中记录,创建在全球范围内可靠运行的预测模型几乎不可能。
为了解决这种全球数据稀缺问题,Groundsource通过分析可用新闻报道来整理洪水详情,将公共信息转化为结构化的本地化事件档案,覆盖150多个国家,时间跨度从2000年至今。Groundsource的核心创新在于其利用先进AI从全球新闻媒体中提取信号的能力。
有大量关于历史事件的非结构化数据——新闻文章、政府报告和地方公告——但手动大规模提取这些信息是不可能的。我们的方法分析以洪水为主要主题的新闻报道。然后使用Google Read Aloud用户代理从80种语言中分离主要文本,并通过云翻译API标准化为英语。
提取过程中最关键的步骤是使用Gemini大语言模型完成的。我们设计了一个复杂的提示,指导Gemini通过严格的分析验证过程。
Groundsource的技术验证确认了其在高风险研究中的可靠性。在人工审查中,我们发现60%的提取事件在位置和时间上都是准确的。关键是,82%的事件足够准确,可用于实际分析——例如,通过捕获正确的行政区划或在报告峰值的一天内精确定位事件。
Groundsource提供的覆盖范围代表了相对于现有档案的大规模扩展。通过将非结构化媒体转化为数据,我们生成了260万个事件——相比传统监测系统记录的数量大幅增加。此外,时空匹配显示,Groundsource捕获了2020年至2026年间GDACS记录的严重洪水事件的85%至100%,证明了其在识别高影响灾害和较小的本地化事件方面的有效性。
通过利用这些丰富的结构化数据,我们实现了在事件发生前24小时提供近全球城市山洪预报的能力。我们现在正在Google的洪水中心推出这些预报,大幅扩展了Google的洪水覆盖范围。
这项工作加入了我们的Google Earth AI地理空间模型和数据集系列,通过展示大语言模型可以系统地将世界的非结构化记忆——新闻——转化为强大的科学基准,证明了在危机韧性领域的科学领导地位。此外,这种方法有潜力应用于解决其他缺乏精确历史记录的自然灾害的数据缺口,如干旱、山体滑坡和雪崩。
通过将世界新闻转化为可操作的数据,我们不仅仅是记录过去,而是在构建一个更有韧性的未来。我们目前正在完善模型,努力将覆盖范围扩展到更多农村地区,并整合新的数据来源。未来,我们将把这种方法应用于其他缺乏实地真实数据而传统上使危机无法预测的灾害类型,致力于一个没有社区会被自然灾害意外袭击的未来。
A:Groundsource是Google开发的一种可扩展框架,利用Gemini大语言模型将全球非结构化新闻转化为可操作的历史数据。它能够从新闻报道中提取验证过的真实情况,以前所未有的精度绘制灾害历史足迹,首个数据集包含260万个山洪事件,覆盖150多个国家。
A:现有的洪水监测系统存在严重的数据稀缺问题。传统系统如全球灾害警报协调系统仅有约10000条记录,相比训练全球规模AI所需的数据量远远不够。特别是对于山洪这类快速移动的局部灾害,往往未在传统数据库中记录,导致难以创建可靠的全球预测模型。
A:技术验证显示,60%的提取事件在位置和时间上完全准确,82%的事件足够准确可用于实际分析。通过这些丰富的结构化数据,Google已实现在事件发生前24小时提供近全球城市山洪预报的能力,并在Google洪水中心推出这些预报功能。

