AI提取6百万条新闻,构建250年历史档案
「一款AI驱动的历史新闻档案平台上线,从250年间的3000多种报纸中提取超600万条故事,支持语义搜索和AI研究助手。」
近日,一款名为“Snewpapers”的AI新闻档案与研究平台正式上线,引发了技术社区和历史研究者的广泛关注。该平台声称是全球首个利用AI技术大规模提取并组织历史报纸内容的系统,覆盖从18世纪30年代至20世纪60年代长达250年的美国历史。目前,平台已收录超过600万条故事,并且仍在每日增长。
与传统的数字档案不同,Snewpapers的核心优势在于其AI驱动的处理能力。它并非简单地扫描或数字化报纸页面,而是通过AI模型对报纸内容进行深度提取、分类和结构化。平台展示了超过3000种报纸标题,并提供了24个大类及1000多个子类别的精细分类体系,用户可以通过状态、日期等多维度筛选,精准定位所需信息。
该平台最引人注目的功能之一是“AI驱动搜索”。与依赖关键词匹配的传统搜索引擎不同,Snewpapers的搜索系统能够理解查询的语义。这意味着,即使文章中没有出现确切的搜索词汇,系统也能根据概念、事件和主题找到相关文章。例如,搜索“工业革命的影响”,系统可能返回涉及工厂兴起、人口迁移等但未直接提及该短语的历史报道。
除了强大的搜索能力,Snewpapers还提供了“收藏与探索”功能。研究者可以构建自己的策展收藏集,探索其他研究人员创建的公开收藏,从而跨越几个世纪发现历史事件之间的隐秘联系。这种协作式的研究方法有望打破学科壁垒,促进跨领域的历史分析。
平台内置的AI研究助手“The Sleuth”是另一大亮点。用户可以向Sleuth提问,它会从档案中检索相关信息并给出带有引用的答案。这相当于为每位研究者配备了一名不知疲倦的AI助理,能够快速挖掘海量数据,极大地提高了研究效率。例如,研究者可以询问“19世纪美国中西部报纸如何报道铁路建设”,Sleuth将自动搜寻相关报道并总结观点。
此外,Snewpapers还推出“历史上的今天”功能,每天根据报纸原始报道,生成当天的历史事件时间线。这为公众提供了一种沉浸式的历史体验方式,让人们能够直接阅读百年前报纸上的第一手叙述。
该平台的出现,标志着AI在人文社科领域的应用迈出了重要一步。它解决了传统历史研究中一个长期存在的痛点:信息分散且难以检索。即使像Google这样的搜索引擎,也未能如此系统化地索引这些历史报纸的深层语义内容。正如平台所宣称的,“你在Google上找不到这些,它们也不在ChatGPT里”,它们只存在于Snewpapers这个专门为历史报纸构建的AI生态中。
对于开发者、历史学家、记者以及任何对历史叙事感兴趣的人来说,Snewpapers提供了一个前所未有的工具。它不仅是一个档案库,更是一个能够理解、关联和回答问题的智能研究平台。随着每日数据的持续增长,这个由AI驱动的历史窗口将不断拓宽,为理解过去、洞察未来提供独特的视角。
来源:Heooo AI工具导航