AI提取1730年代至1960年代报纸海量文章
「snewpapers.com推出全球首个AI报纸档案与研究平台,利用AI从250年美国历史中提取600万+故事,支持语义搜索与智能分析。」
近日,一个名为snewpapers.com的AI报纸档案与研究平台正式上线,宣称是全球首个利用AI技术大规模提取并组织历史报纸内容的平台。该平台专注于美国历史报纸,覆盖从1730年代至1960年代长达250年的报纸资料,目前已拥有超过600万篇故事,并且这个数字还在每日增长。
与传统的报纸档案库不同,snewpapers.com并非简单提供扫描件或关键词搜索,而是通过AI对每篇报纸文章进行深度提取、分类和语义理解。平台宣称,其AI已经“阅读”了这些报纸,因此用户能够以全新的方式探索历史——不是通过模糊的关键词匹配,而是通过概念、事件和主题进行搜索。这意味着,即使文章中并未出现用户输入的确切词语,AI也能理解其含义并返回相关结果。
平台的特色功能包括:
AI驱动的语义搜索:用户可以根据含义搜索,而非仅依赖关键词。平台内置了24个主类别和超过1000个子类别,同时支持按州和日期进行过滤,帮助用户在海量数据中精准定位所需信息。
集合与发现功能:用户可以创建自己的研究集合,浏览其他研究者公开的集合,并发现跨越几个世纪的历史联系。这一设计旨在促进协作式历史研究。
AI研究助手“The Sleuth”:用户可以像与专家对话一样向AI提问,AI会从档案中检索答案并提供引用来源。这大大降低了历史研究的时间门槛,用户无需手动翻阅数百万页报纸。
每日历史上的今天:平台每天自动生成一个精选时间线,展示历史上同一天发生的重大事件,所有内容均直接来源于当时的报纸报道。
该平台目前收录了超过3000种报纸标题,覆盖美国各个历史时期。其数据来源强调“你在谷歌上找不到这些,它们也不在ChatGPT里”,意指这些经过AI提取和组织的报纸内容具有独特性,并非公开互联网上容易获取的信息。
从技术角度看,snewpapers.com展示了AI在数字人文领域的应用潜力。传统的历史研究依赖研究者手动查阅缩微胶卷或扫描件,效率低下且容易遗漏。而通过AI的自然语言处理(NLP)和语义理解能力,大量非结构化的历史文本可以被转化为可搜索、可关联的结构化数据,从而加速历史学、社会学、新闻学等领域的学术发现。
此外,该平台对AI的运用不仅限于搜索。其AI助手“The Sleuth”实质上是一个基于检索增强生成(RAG)的问答系统,能够在封闭的档案库内进行事实性回答,并附带出处。这种模式避免了通用AI模型可能产生的“幻觉”问题,因为答案被严格限制在已有文档范围内。
对于开发者、历史爱好者以及专业研究人员而言,snewpapers.com提供了一个全新的工具。它既是一个庞大的历史数据库,也是一个AI研究平台。随着每日新增内容的持续积累,这一档案库有望成为研究美国历史的重要数字基础设施。
来源:Heooo AI工具导航