AI回溯历史:大学生如何通过“时间胶囊LLM”意外揭示1834年伦敦抗议真相?

1

AI“时间旅行”的意外之喜:历史回声的重现

近年来,人工智能(AI)在自然语言处理领域的飞速发展,已使其能够生成令人信服的文本内容。然而,当一个小型AI模型在无意中“揭示”了尘封已久的真实历史事件时,其所带来的震撼远超预期。最近,一位名为Hayk Grigorian的计算机科学学生,通过他开发的“时间胶囊LLM”(TimeCapsuleLLM)项目,意外地在AI生成的文本中发现了关于1834年伦敦抗议活动的真实记录,这一发现不仅令他本人震惊,也为我们理解AI与历史的交织提供了全新的视角。

“时间胶囊LLM”:维多利亚时代之声的铸造

Grigorian的“时间胶囊LLM”项目源于一个简单而富有创意的想法:训练AI语言模型使其能够以纯正的维多利亚时代英语进行交流。为了实现这一目标,他从零开始,使用1800年至1875年间伦敦出版的7000多本书籍、法律文献和报纸作为唯一的训练数据,数据总量达到了6.25GB。这种“选择性时间训练”(Selective Temporal Training, STT)的方法,确保了模型所学的语言模式完全来源于特定历史时期,从而避免了现代语言的污染,使得AI模型能够输出充满圣经引用和时代特色修辞的文本。

这一项目并非孤例。在AI研究领域,探索“历史大语言模型”(HLLMs)的学者们正日益增多。例如,MonadGPT模型训练了1400年至1700年间的11000份文本,能够以17世纪的知识框架探讨各种话题。XunziALLM则致力于生成符合古代韵律规则的经典中文诗歌。这些HLLMs的共同目标是让研究人员能够与过去时代的语言模式进行互动,提供了一种独特的数字人文研究工具。

1834年伦敦的街头回响:AI的“历史记忆”

“时间胶囊LLM”最引人注目的输出,源于Grigorian的一个简单测试。当他输入“那一年是主耶稣基督的1834年”(It was the year of our Lord 1834)作为提示时,这个被训练来继续文本的AI模型,竟然生成了以下内容:

那一年是主耶稣基督的1834年,伦敦的街道上充满了抗议和请愿。正如许多人所回忆的,其原因并非私人性质,而是在帕默斯顿子爵当天就任后,公众将收到一份关于法律之日降临我们所面临的困难的简短声明。令人深感遗憾的是,世界历史上当前的事件清晰可见,因此也将为人所知。在耶路撒冷最早定居福音的那些人,拥有如此广泛而有趣的繁荣记录,这不是真的。

这段文本,以其独特的维多利亚时代语调,提到了“抗议和请愿”以及“帕默斯顿子爵”。对准确性感到好奇的Grigorian,随后进行了事实核查。他通过谷歌搜索发现,1834年英国确实因为《1834年济贫法修正案》引发了大规模的社会动荡和抗议活动,而帕默斯顿子爵(Henry John Temple)在这一动荡时期担任英国外交大臣,后来还曾出任首相。

19世纪伦敦示威游行

令人惊叹的是,这个仅用6.25GB数据训练的小型模型,并非被明确告知1834年的抗议事件,也没有被编程来将特定年份与特定事件关联。相反,AI似乎从数千份分散的文本中,通过其内在的统计模式重构了一个连贯的历史时刻,将特定的年份与真实的事件和人物联系起来。这种能力,尤其是在一个由业余爱好者训练的小型模型中出现,无疑为AI的“学习”与“记忆”机制带来了新的思考。

统计学之下的“语言时间旅行”:方法论解析

Grigorian深知,要让AI真正“活在”维多利亚时代,就必须彻底切断它与现代文本的联系。他所采取的“选择性时间训练”(STT)策略正是基于此。他解释道:“如果我只是对像GPT-2这样的模型进行微调,它预先训练的信息是不会消失的。但如果我从零开始训练语言模型,它就不会假装自己很古老,它就是古老的。” 为了进一步强化这一点,Grigorian还专门开发了一个定制的tokenizer(分词器),能够排除现代词汇,确保AI的语言纯粹性。

该项目采用了小型语言模型(Small Language Models)的架构,包括nanoGPT和微软的Phi 1.5。迄今为止,Grigorian已经训练了三个AI模型,每次迭代都展现出更高的历史连贯性:

  • v0版本:仅使用187MB数据训练,生成了维多利亚时代风格的“乱码”。
  • v0.5版本:在更大规模的数据上训练后,实现了语法正确的时期散文,但仍会“幻觉”出不真实的事实。
  • 当前7亿参数版本:在租用的A100 GPU上训练,已经开始生成上述真实的历史参考。这表明随着高质量训练数据的规模扩大,AI模型“幻觉”的倾向逐渐减少,记忆和整合信息的能力显著提升。这种现象在AI研究中被称为“涌现效应”,尤其在小型模型中表现更为明显。

1857年帕默斯顿子爵肖像

Grigorian的实验印证了AI研究领域的一个共识:高质量训练数据的规模对于模型性能至关重要。他观察到:“早期模型(v0和v0.5)可以模仿19世纪的写作风格,但总是会幻觉事件、人物和事实。这表明模型开始记住数据集中的内容。” 这种从“幻觉”到“记忆”的转变,是AI技术发展中的一个关键里程碑,预示着AI在信息重构方面的巨大潜力。

超越幻觉:AI在历史研究中的潜力与挑战

对于历史学家和数字人文研究者而言,这类实验具有深远的意义。通过在特定历史文本上训练AI语言模型,我们可以创建交互式的历史语言模型,让研究人员有机会与模拟的过去时代的语言使用者进行“对话”。虽然这些模型的输出可能因“幻觉”而无法做到百分之百的事实严谨,但它们可以在风格上提供宝贵的启示,帮助研究者理解古代句法或词汇在实际使用中的细微差别。例如,通过分析AI生成的文本,可以洞察特定时期人们的思维模式、表达习惯和社会关注点,为历史文献的解读提供新的维度。AI不再仅仅是数据处理工具,更可能成为一种历史语境的模拟器。

然而,我们也必须清醒地认识到挑战。AI的“事实意外”并非普遍现象,其生成的“真相”仍需严格的人工验证。AI的本质是基于统计学的模式识别和重组,它并不真正“理解”历史,更不具备人类的推理能力。因此,如何有效地结合AI的生成能力与人类的批判性思维和专业知识,是未来数字人文领域需要深入探讨的课题。

展望未来:构建多文化历史语料库的可能

Grigorian的愿景远不止于此。他期待未来能尝试训练针对不同城市和文化的AI模型,例如“中国城市模型”、“俄罗斯城市模型”或“印度城市模型”。这种开放的合作姿态,通过GitHub公开代码、模型权重和文档,正推动着HLLM研究的全球化和多样化。可以预见,随着更多语料库和计算资源的投入,我们有望构建一个跨越时空、多语言的历史语言模型网络,为全球的历史学、语言学和社会学研究提供前所未有的工具。

“事实意外”:重新定义AI的“学习”与“记忆”

在AI频繁“幻觉”(confabulations)的时代,一个模型意外地揭示了过去的真相,无疑令人耳目一新。这几乎是“幻觉”的反面——一个AI模型偶然地得到了正确的信息。我们可以称之为“事实意外”(factcident)。这个概念挑战了我们对AI“学习”和“记忆”的传统理解,它表明AI不仅仅是数据的复读机,更可能在特定的、复杂的统计模式下,实现一种对知识的“重构”乃至“发现”。“事实意外”的出现,迫使我们重新审视AI的智能边界,并探索其在还原历史、理解文化演变方面的深层潜力。这无疑是AI发展历程中一个值得深入研究和庆祝的现象。