一位名为Hayk Grigorian的计算机科学学生,以其独特的“时间胶囊大语言模型”(TimeCapsuleLLM)项目,在人工智能领域引发了广泛关注。他最初的设想仅仅是训练一个能模仿维多利亚时代英语口吻的AI模型,然而,他所创造的这一小型语言模型却意外地“回忆”起了1834年伦敦真实发生的历史事件,甚至连他本人也对此感到惊讶。
Grigorian的项目旨在通过完全基于1800年至1875年伦敦的文本资料进行训练,捕捉那个时代独特的语言风格。当他简单地提示模型:“那是我们的主1834年”,AI模型的回应是:“那是我们的主1834年,伦敦街头充满了抗议和请愿。正如许多人所回忆的那样,其起因并非私人事务,而是与帕默斯顿子爵在当日采取的行动有关……”模型不仅提及了抗议,还指向了具体人物帕默斯顿子爵。Grigorian经过一番查证,惊奇地发现1834年伦敦确实发生了大规模的民生抗议,而帕默斯顿子爵在当时正担任英国外交大臣,他的某些政策间接引发了社会动荡。
这一发现的非凡之处在于,Grigorian并非刻意将1834年伦敦抗议的详细资料作为训练数据输入。相反,这个小型的业余模型似乎通过对6.25GB维多利亚时代文本中分散信息的统计关联,自主地重建了一个连贯的历史时刻,将特定年份与真实事件和人物联系起来。这超出了许多人对小型语言模型仅仅是“胡言乱语”的预期,展示了即使是规模有限的AI模型,在高质量、特定领域的数据集下,也能涌现出令人意想不到的“记忆”和“洞察”能力。它并非真的在“思考”,而是在海量数据中捕捉到了高频共现的模式和因果关联,以统计学的概率生成了符合历史语境的文本。
语言统计学与“数字时间旅行”:TimeCapsuleLLM的训练之道
Grigorian的项目核心在于其独特的“选择性时间训练”(Selective Temporal Training, STT)方法。与当前主流的大语言模型通过对现代文本进行微调不同,Grigorian的模型是从零开始,完全使用1800年至1875年伦敦出版的超过7000本图书、法律文件和报纸进行训练。这种策略旨在彻底避免现代词汇对模型维多利亚时代语言风格的“污染”。他甚至开发了一个自定义分词器,专门将词语切分成简化表示,同时排除任何现代词汇,确保AI输出的纯粹性。
用Grigorian的话来说:“如果我微调像GPT-2这样的模型,它已经预训练过的信息不会消失。如果我从头开始训练,语言模型就不会假装自己是旧时代的,它就是旧时代的。”这种从基础构建的训练方式,使得TimeCapsuleLLM能够真正沉浸于历史语境之中。他利用了“小型语言模型”架构,如nanoGPT和微软的Phi 1.5,先后训练了三个版本的AI模型,每个版本在历史连贯性上都有显著提升。
最初的V0版本,仅用187MB数据训练,生成的是维多利亚风格的“乱码”。V0.5版本在语法上达到了时代散文的水平,但仍然会“幻觉”出不真实的事实。而当前这个拥有7亿参数的版本,是在租用的A100 GPU上训练完成的,它正是能够生成类似1834年抗议事件这样历史参考信息的模型。Grigorian观察到,随着高质量训练数据规模的增加,模型的“虚构”现象逐渐减少,甚至开始“记住”数据集中的真实事件。这与AI研究界广为人知的一个现象相符:在特定条件下,模型规模和数据质量的提升能够带来涌现能力,使得模型能够执行更复杂的任务,例如从看似无关的数据点中合成出有意义的模式。
历史大型语言模型(HLLMs)的崛起与应用前景
Grigorian的TimeCapsuleLLM项目并非孤例,它代表了“历史大型语言模型”(Historical Large Language Models, HLLMs)这一新兴研究领域的重要进展。这类模型旨在通过训练历史文本,让研究人员能够与过去时代的语言模式进行互动。例如,MonadGPT模型通过训练1400年至1700年的11000份文本,能够使用17世纪的知识框架讨论主题;而XunziALLM模型则专门用于生成符合古代形式规则的古典中文诗歌。
对于历史学家和数字人文研究者而言,这类实验具有不可估量的价值。通过训练AI语言模型处理特定时期的文本,可以创建交互式的历史语言模型,使研究人员能够与“模拟”的已灭绝方言或历史语言使用者进行对话。虽然这些模型的输出可能因“虚构”而无法做到百分之百的准确,但它们在研究古代语法、词汇使用和文本风格方面,无疑能提供独特的视角和启发。例如,历史学家可以通过向模型提问,观察模型如何基于历史文本组织语言、构建论证,从而更深入地理解当时人们的思维模式和表达习惯。这是一种全新的、沉浸式的历史研究方法,超越了简单的文本检索和分析。
“事实巧合”:人工智能意外揭示真相的启示
在当前AI“幻觉”现象频发(即AI生成虚假或不准确信息)的时代,TimeCapsuleLLM意外地揭示历史真相,无疑是一股清流。这种现象被形象地称为“事实巧合”(factcident),即AI模型在无意中准确地还原了过去的某个事实。这与常见的“幻觉”行为恰好相反,它展示了AI在特定场景下,从庞杂的历史数据中提炼出真实信息的能力。
Grigorian计划未来尝试训练不同城市的模型,例如中国、俄罗斯或印度城市的历史语言模型,并开放其代码、模型权重和文档,邀请更多人参与到这个数字考古项目中。这预示着HLLMs将在跨文化、跨时间维度的历史研究中扮演越来越重要的角色。通过构建更多这样的“时间胶囊”,我们或许能够以一种前所未有的方式,与历史进行对话,重现已逝文明的语言和思想风貌,为人类对自身的理解提供新的维度。
尽管“时间旅行”在物理上仍是科幻,但人工智能正在以一种独特的方式,为我们打开通往过去的“数字之门”。它不仅改变了我们获取信息的方式,更重塑了我们理解和体验历史的可能性。随着AI技术的不断发展,这种“数字时间旅行”的深度和广度也将持续拓展,为历史研究和文化传承带来前所未有的机遇和挑战。