AI穿越19世纪:大学生模型如何精准“预测”1834年伦敦历史事件?

1

引言:AI的意外时间之旅

近年来,人工智能(AI)在内容创作领域的进步令人瞩目,但当一个旨在模仿维多利亚时代英语的小型AI语言模型,意外地“揭示”了1834年伦敦的真实历史事件时,其影响力远超简单的文本生成。这一发现不仅令开发者震惊,也为AI在历史研究和语言学领域的应用开辟了新的视角。本文将深入剖析这一引人入胜的案例,探讨其背后的技术原理、历史大型语言模型(HLLMs)的兴起,以及它们如何改变我们与历史互动的方式。

宾夕法尼亚州穆伦堡学院的计算机科学学生海克·格里戈里安(Hayk Grigorian)出于个人兴趣,着手构建能够说出维多利亚时代英语的AI语言模型。他将其命名为“时间胶囊大语言模型”(TimeCapsuleLLM)。在一个简单的测试中,当格里戈里安向模型输入“那是我们主1834年”时,AI的回应却出乎意料地提及了当时伦敦爆发的抗议活动,并将其与帕默斯顿子爵(Lord Palmerston)联系起来。格里戈里安在查阅史料后惊奇地发现,这些描述与1834年英国《济贫法修正案》引发的社会动荡及其与帕默斯顿角色之间的历史事实高度吻合。

这一“意外之真”的现象,与当前AI领域常见的“幻觉”(confabulations)问题形成鲜明对比,被戏称为“事实偶发”(factcident)。它不仅展示了AI从海量非结构化历史文本中提取并重构复杂历史事件的惊人能力,也促使我们重新思考AI在时间维度的“理解”与“记忆”机制。

TimeCapsuleLLM:维多利亚时代的语言构造

格里戈里安的TimeCapsuleLLM项目旨在通过完全从头开始训练的方式,避免现代文本对AI语言风格的“污染”。与主流的预训练大模型不同,TimeCapsuleLLM专门使用1800年至1875年间伦敦出版的7000多本书籍、法律文件和报纸进行训练,数据量达6.25GB。这种“选择性时间训练”(Selective Temporal Training, STT)策略确保了模型能够真正内化并输出原汁原味的维多利亚时代语言风格。

为了实现这一目标,格里戈里安还开发了定制的词元分析器(tokenizer),该分析器会主动排除现代词汇,确保模型在处理和生成文本时,严格遵循19世纪的词汇和语法习惯。他解释道:“如果我基于GPT-2进行微调,预训练的信息会一直存在。但如果我从头开始训练,语言模型就不会假装自己是古老的,它就是古老的。”这种纯粹的训练方法,是TimeCapsuleLLM能够再现特定历史时期语言风貌的关键。

在模型架构上,TimeCapsuleLLM借鉴了小型语言模型,如nanoGPT和微软的Phi 1.5。格里戈里安已经训练了三个版本,每个版本都展现出逐步提升的历史连贯性:

  • 版本0(187MB数据):仅能生成带有维多利亚风格的乱码。
  • 版本0.5:能够生成语法正确的时期散文,但常出现事实性幻觉。
  • 当前7亿参数版本(租赁A100 GPU训练):在更大规模的高质量数据集上训练后,已能生成具有历史关联性的文本,如1834年伦敦抗议的例子。

这一演变过程印证了AI研究领域的一个普遍认知:高质量训练数据的规模化是减少“幻觉”现象、提升模型准确性和“记忆”能力的重要途径。格里戈里安表示,早期模型虽然能模仿风格,但总会虚构事件和人物;而现在,模型已经开始“记住”数据集中的事实。

A London etching of a demonstration from the late 19th century.

“事实偶发”:AI如何“发现”1834年伦敦抗议?

TimeCapsuleLLM的这次“事实偶发”事件,源于一次看似普通的文本续写请求。当格里戈里安输入“那是我们主1834年”时,模型输出了一段详细描述: