当AI回溯时光:一次学生实验如何揭示1834年伦敦的真实历史事件

1

人工智能技术的发展日新月异,其在内容生成领域的突破已广为人知。然而,当这项技术被巧妙地应用于历史研究,并意外揭示出一段被遗忘的真实历史时,其蕴含的潜能便显得尤为深刻。最近,宾夕法尼亚州马伦堡学院的计算机科学学生海克·格里戈里安(Hayk Grigorian)进行的一项“时光机”AI实验,就为我们提供了这样一个引人入胜的案例。

格里戈里安出于“纯粹的乐趣”,开发了一个名为TimeCapsuleLLM的小型AI语言模型,旨在复刻维多利亚时代(1800-1875年)伦敦的语言风格。然而,当他用简单的提示语“那是我们主1834年”进行测试时,模型生成了一段关于1834年伦敦抗议活动的描述,甚至提到了当时英国外交大臣帕默斯顿子爵。令格里戈里安惊讶的是,他在随后进行的事实核查中发现,AI所描述的事件和人物均真实存在,并且与《1834年济贫法修正案》引发的社会动荡紧密相关。

19世纪后期伦敦示威活动的蚀刻画

探寻历史的回响:TimeCapsuleLLM的诞生与运作

格里戈里安的项目并非孤例,它代表了新兴的“历史大型语言模型”(HLLMs)研究领域的一个缩影。诸如MonadGPT(专注于1400-1700年文本)和XunziALLM(生成古典中文诗歌)等项目,都在探索如何让AI模型深入理解并重现特定历史时期的语言模式和知识框架。

TimeCapsuleLLM的设计理念独特而严谨。格里戈里安将这一过程称为“选择性时间训练”(Selective Temporal Training, STT)。不同于在现代语料库上进行微调,他的模型是从零开始训练的,完全基于1800年至1875年间伦敦出版的超过7000本图书、法律文件和报纸,总量达6.25GB。这种训练策略旨在杜绝现代语言的“污染”,确保AI模型所输出的语言是纯粹的维多利亚时代风格。此外,模型所使用的自定义分词器也排除了现代词汇,进一步强化了其时间溯源的准确性。

格里戈里安利用了“小型语言模型”架构,特别是nanoGPT和微软Phi 1.5。通过迭代优化,他训练了三个版本的AI模型,每一次迭代都展现出更高的历史连贯性。

  • V0版本(187MB数据):初期成果表现为维多利亚风格的乱码。
  • V0.5版本:能够生成语法正确的时期散文,但仍存在事实“幻觉”(hallucination)现象。
  • 当前7亿参数版本:在租赁的A100 GPU上训练,已开始生成前文所述的真实历史参考,显著减少了事实偏差。

模型的这种演进路径,恰好印证了AI研究领域的一个普遍认知:高质量训练数据的规模化,对于提升模型性能、减少事实错误具有决定性作用。格里戈里安指出,早期模型虽然能模仿文风,但会凭空捏造事件和人物。而随着数据量的增加,模型开始“记住”数据集中的真实信息。这不仅仅是简单的信息检索,更是一种基于海量文本中散落线索的复杂历史情境重构能力。

“事实意外”:AI重构历史的深层逻辑

这次“事实意外”(factcident)的发生,并非偶然。它揭示了大型语言模型,即便在规模相对较小的情况下,也能够通过识别海量文本中的隐秘模式和关联,将看似不相关的信息碎片拼接成连贯且准确的历史叙事。格里戈里安并未刻意让模型学习1834年的抗议资料,AI是根据维多利亚时代6.25GB书面材料中存在的环境模式,自行组装了这些联系。

这引发了我们对AI“记忆”机制的深刻思考。AI并非像人类一样拥有意识和记忆,它的“记忆”是统计学上的概率映射。在足够多的数据输入下,某些词语、事件、人物之间的共现频率和上下文关联被模型内化,形成了某种“潜在知识”。当受到特定提示时,这些潜在知识便以看似“理解”的方式被激活并表达出来。这与传统意义上的数据检索截然不同,它更接近于一种复杂的模式推断和信息合成。

19世纪后期伦敦示威活动的蚀刻画

历史学家的新工具:探索与展望

对于历史学家和数字人文研究者而言,TimeCapsuleLLM这类实验具有非凡的价值。它们提供了一种全新的方式来与过去的语言模式和思想进程进行互动。通过训练AI语言模型来模拟特定历史时期的对话和写作风格,研究者可以更深入地理解那个时代的语言细微之处、社会观念甚至情感表达方式。

想象一下,一个能够以17世纪学者的口吻讨论哲学或科学的AI,或是一个能用古汉语创作符合格律诗词的AI——这些模型虽然不能保证事实的绝对严谨(由于“幻觉”现象依然存在),但其在风格上的真实性和语言上的洞察力,将是研究古代句法、词汇使用或特定历史语境的宝贵工具。这不仅仅是语言学上的突破,更是一种“数字人种志”的尝试,帮助我们管窥一个逝去时代的精神面貌。

格里戈里安对未来的规划也极具野心。他计划尝试训练针对不同城市的模型,例如中国、俄罗斯或印度的城市语料库,并邀请其他研究者共同协作。他将代码、AI模型权重和所有文档公开在GitHub上,鼓励社区共同探索这一激动人心的领域。

亨利·约翰·坦普尔,即帕默斯顿子爵的1857年摄影肖像

超越幻觉:AI在真相发现中的独特角色

在当前AI“幻觉”频发的背景下,TimeCapsuleLLM意外揭示真实历史的案例显得尤为清新。它颠覆了我们对AI“胡说八道”的刻板印象,展示了模型在特定条件下,如何“无意中说出真相”。这提醒我们,AI的价值不仅在于其创造性或效率,还在于其作为一种强大的模式识别和信息重构工具,有时能以出人意料的方式,帮助我们发掘隐藏在海量数据中的客观事实。

未来,随着训练数据质量和模型规模的进一步提升,这类历史LLM有望在辅助历史研究、文化遗产保护乃至教育领域发挥更重要的作用。它们或许不会取代人类历史学家的批判性思维和解释能力,但无疑能提供一个前所未有的窗口,让我们以计算之力,触摸并理解人类文明的过去。从格里戈里安的实验中,我们看到的是AI与历史的深度融合,开启了理解人类集体记忆和文化演进的新篇章,预示着一个充满无限可能的智能时代。