AI穿越时空:大学生项目如何意外揭示1834年伦敦尘封历史?

1

AI驱动下的“时间胶囊”:一个意外的历史重现

近日,一位热衷于人工智能研究的大学生Hayk Grigorian,通过其名为“TimeCapsuleLLM”的项目,意外地揭示了1834年伦敦的一段真实历史。这项旨在模仿维多利亚时代语言风格的AI实验,不仅展示了人工智能在文本生成方面的惊人能力,更以一种出乎意料的方式,为我们提供了一扇窥视历史细节的独特窗口。这个项目的核心在于其独特的训练方法和随之而来的“事实偶得”现象,即AI在未被明确指示的情况下,从庞杂的历史文本中自行构建并呈现出准确的历史事件。

TimeCapsuleLLM:维多利亚时代的语言复刻

Grigorian作为宾夕法尼亚州Muhlenberg学院的计算机科学学生,过去一个月致力于开发TimeCapsuleLLM。这是一个小型AI语言模型,其独特之处在于完全基于1800年至1875年间伦敦出版的7000多本书籍、法律文献和报纸进行训练。他的目标是让AI模型能够输出具有纯正维多利亚时代风格的文本,充满那个时期特有的语言特征和修辞习惯。为了避免现代语言的污染,他采用了“选择性时间训练”(Selective Temporal Training, STT)的方法,并开发了一个定制的tokenizer来排除现代词汇。这种从零开始训练而非微调现有模型的方式,确保了AI所“说”的语言真正属于过去。

该项目与日益壮大的“历史大型语言模型”(HLLMs)研究领域不谋而合。例如,MonadGPT训练于1400年至1700年的文本,能以17世纪的知识框架讨论话题;XunziALLM则能生成遵循古代形式规则的经典中文诗歌。这些模型共同探索了与过往时代语言模式互动的可能性,为历史学和数字人文研究提供了新的工具。

AI的意外发现:1834年的伦敦抗议

TimeCapsuleLLM最引人入胜的输出源于一个简单的测试。当Grigorian输入“那是主纪元1834年”作为提示时,AI模型生成了一段关于伦敦街头抗议和请愿的文本。这段文字不仅提及了抗议的原因,还提到了帕默斯顿勋爵。

AI生成内容如下:

It was the year of our Lord 1834 and the streets of London were filled with protest and petition. The cause, as many re counted, was not bound in the way of private, but having taken up the same day in the day of Lord Palmerston, the public will receive a short statement of the difficulties under which the day of law has reached us. It is a matter of deep regret, that the present events in the history of the world are clear, and consequently will be'known. It is not true that the very men who first settled in the Gospel at Jerusalem should have so extensive and so interesting a record of the prosperity and prosperity

出于好奇,Grigorian对AI的输出进行了事实核查。他通过谷歌搜索证实,1834年伦敦确实发生了大规模的社会动荡,这与同年通过的《1834年济贫法修正案》密切相关。而帕默斯顿勋爵(Henry John Temple)当时正担任英国外交大臣,他在这一动荡时期扮演了重要角色。AI模型所提及的细节,与历史事实惊人地吻合。

伦敦19世纪末示威游行的版画

伦敦19世纪末示威游行的版画

“事实偶得”:AI如何重构历史叙事

这一事件的特别之处在于,一个由个人训练的小型AI模型,似乎在未被明确训练这些特定关系的情况下,成功地从数千份散布的文档中,重建了一个连贯的历史时刻,将特定的年份与真实的事件和人物联系起来。Grigorian并未有意地用1834年抗议的特定文献来训练模型;相反,AI是从6.25GB的维多利亚时代文本的整体模式中,自行组装出这些关联的。这与AI研究界长期以来对语言模型能够从文本中综合信息以生成现实排列的理解相符,但此次事件尤其突出了小型模型在处理复杂历史关联时的潜力。

这种现象可以被形象地称为“事实偶得”(factcident),与常见的AI“幻觉”(confabulations)形成鲜明对比。在多数情况下,AI模型可能会生成似是而非但实际上虚假的信息。而在这里,AI意外地道出了关于过去的一个真相,这无疑为我们理解AI如何处理和呈现历史知识提供了新的视角。Grigorian指出,这仅仅是在5-6GB数据量下的结果,若将数据量扩大至30GB甚至更多,其所能揭示的历史信息量将是难以估量的,这甚至让人产生“数字时间旅行”的错觉。

技术演进与历史洞察力的提升

Grigorian的模型在训练过程中经历了多个版本迭代,每次迭代都带来了历史连贯性的提升。最初的v0版本仅在187MB数据上训练,生成的是维多利亚风格的“乱码”;v0.5版本能够生成语法正确的时期散文,但仍存在事实“幻觉”。而目前的7亿参数版本,在A100 GPU上训练而成,已经开始生成上述的历史引用。这种对错误信息(confabulations)的减少,正是高质量训练数据规模扩大所产生的“涌现效应”的体现,这在AI研究中是一个被广泛认可的现象,尤其在小型模型中表现更为明显。Grigorian强调,这表明模型正在开始“记住”数据集中的信息。

1857年亨利·约翰·坦普尔(帕默斯顿勋爵)的摄影肖像

对数字人文和历史研究的启示

对于历史学家和数字人文研究者而言,这类实验具有极高的应用价值。通过对特定时期文本的AI语言模型训练,研究人员可以创建交互式的时期语言模型,从而有机会与“模拟的”过去时代的发言者进行对话。这些结果可能不会在事实层面做到绝对严谨,毕竟模型仍可能产生“幻觉”,但它们能够从风格层面为研究者提供深入的洞察,帮助理解古老句法或词汇在实际使用中的细微差别。例如,通过与这些模型互动,语言学家可以更直观地感受特定时代语言的韵味和表达习惯,从而更好地还原历史语言环境。

Grigorian的探索并未止步于此,他计划尝试构建更多不同城市、不同文化背景的模型,例如中国、俄罗斯或印度城市模型,并邀请社区内的其他研究者共同参与。他将其项目代码、模型权重和相关文档公开发布在GitHub上,鼓励更多的协作与创新。

展望:AI在历史还原中的独特价值

在一个AI“幻觉”频繁出现的时代,TimeCapsuleLLM意外地揭示历史真相的“事实偶得”现象,显得尤为令人耳目一新。这不仅仅是一个技术上的突破,更深层次地,它挑战了我们对AI能力的传统认知。人工智能不仅是信息处理的工具,更可能成为一种重构和理解历史的全新媒介。通过这种方式,AI模型能够帮助我们以更生动、更具沉浸感的方式接触和探索人类的过去,为历史学和数字人文研究带来前所未有的机遇。然而,同时也需要警惕过度解读,始终将AI生成内容视为辅助性工具,并结合传统历史考证方法进行批判性验证,以确保研究的严谨性与准确性。毕竟,AI只是从数据中学习模式,其“理解”与人类的理解仍有本质区别。