AI预测能力深浅几何?新测试揭示模型理解与泛化边界

3

AI预测力与理解力的分野

当前,人工智能技术以其惊人的预测能力,在诸多领域展现出前所未有的潜力。从金融市场趋势预测到个性化内容推荐,AI系统似乎无所不能。然而,一个更深层次的问题日益凸显:这些卓越的预测成果,究竟是源于对事物内在机制的深刻理解,还是仅仅基于对海量数据模式的表面学习?更进一步,AI是否能够将其在特定领域习得的“知识”,有效地泛化和应用于全新的、略有不同的情境之中?这一核心挑战构成了AI研究与应用领域亟待解决的关键难题。

回溯至17世纪,德国天文学家约翰内斯·开普勒通过细致观测,精确描绘了行星围绕太阳运行的轨道规律,从而能够准确预测行星在天空中出现的位置。然而,直到数十年后,艾萨克·牛顿才通过提出万有引力定律,揭示了这些运动背后的基本原理。牛顿的理论超越了开普勒的经验性定律,其公式不仅能解释行星运动,还能应用于炮弹轨迹、月球引力如何影响潮汐,乃至如何将卫星送入月球或行星轨道。这不仅仅是预测能力的提升,更是对“世界”运作方式的深层洞察。

行星轨道与AI理解

突破性研究:衡量AI的“世界模型”深度

麻省理工学院信息与决策系统实验室(LIDS)和哈佛大学的研究人员,正试图通过一种创新方法,精确评估现代AI预测系统对其主题内容的理解深度,以及它们能否将特定领域的知识迁移到略有不同的其他领域。这项研究的成果已在上个月于加拿大温哥华举行的国际机器学习大会(ICML)上公布。该研究由哈佛大学博士后Keyon Vafa、麻省理工学院电气工程与计算机科学研究生兼LIDS附属研究员Peter G. Chang、麻省理工学院助理教授兼LIDS首席研究员Ashesh Rambachan以及麻省理工学院教授、LIDS首席研究员兼资深作者Sendhil Mullainathan共同完成。

研究团队的核心疑问在于:我们人类常常能从纯粹的预测能力跃升至构建一个“世界模型”,那么,当前的AI基础模型是否也已实现了从预测到世界模型的这一飞跃?正如研究主要作者Vafa所言:“我们并非质疑AI是否‘有能力’或‘将能够’做到,而是审视它们‘迄今为止是否已经做到’。”资深作者Mullainathan教授补充道:“我们知道如何测试算法是否能很好地预测,但我们需要一种方法来测试它是否能很好地‘理解’。甚至定义‘理解’本身就是一个挑战。”

从经验法则到普适定律:AI的泛化困境

Vafa进一步阐释了开普勒与牛顿的类比:“两者都有在特定任务上表现极佳的模型,并且在这些任务上的工作方式基本相同。而牛顿所提供的,是能够泛化到新任务的思想。”这种能力,应用于AI预测系统,意味着它能够发展出一个“世界模型”,从而“超越你正在处理的任务,并能够泛化到新类型的问题和范式”。

另一个有助于说明这一观点的类比是,人类在几个世纪以来积累的关于如何选择性育种作物和动物的知识,与格雷戈尔·孟德尔对遗传基本定律的深刻洞察之间的区别。前者是基于大量实践经验的积累,而后者则触及了事物运行的底层机制,具有更强的解释力和泛化性。

目前,学术界对使用基础模型不仅执行任务,更重要的是“学习关于世界的一些东西”,例如在自然科学领域,抱有巨大的热情。但要实现这一点,模型需要具备适应任何可能任务的“世界模型”。那么,AI系统是否已接近达到这种泛化能力呢?

为了检验这一问题,研究团队考察了不同复杂程度的预测AI系统示例。在最简单的示例中,系统成功地构建了模拟系统的现实模型;然而,随着示例变得日益复杂,这种能力便迅速衰退。这表明,AI在处理简单、低维度情境时或许能形成表层理解,但面对高维度、多变量的复杂现实时,其构建鲁棒“世界模型”的能力仍显不足。

“归纳偏置”:衡量AI世界模型的关键指标

该团队为此开发了一种全新的度量标准,一种定量衡量系统近似真实世界条件优劣的方法。他们将这种测量称为“归纳偏置”(inductive bias),即系统根据从大量特定案例中推断出的信息,倾向于产生反映现实的响应或模型。这个指标旨在捕捉模型在学习过程中,对哪些类型的解决方案或模型结构具有内在偏好,以及这些偏好是否与真实世界的结构相符。

他们研究的最简单示例是所谓的“格点模型”(lattice model)。在一个一维格点中,物体只能沿一条线移动,Vafa将其比作青蛙在一排荷叶之间跳跃。如果青蛙跳跃或静止时发出信号(右、左或停),并且一个AI系统只听到这些信号,而不知道荷叶的数量,它能否推断出荷叶的配置?答案是肯定的:预测模型在这种简单情况下能够很好地重建“世界”。然而,即使是格点模型,当维度增加时,系统也无法再实现这种飞跃。

Chang解释道:“例如,在两态或三态格点中,我们发现模型对实际状态确实具有相当好的归纳偏置。但当我们增加状态数量时,它就开始与真实世界模型产生分歧。”更复杂的问题是围棋游戏奥赛罗(Othello)的AI系统。这些AI模型可以准确预测给定点的合法走法,但它们在推断棋盘上整体棋子布局(包括当前被阻塞的棋子)方面表现不佳。

研究团队随后考察了五类实际使用的预测模型,结果再次表明,系统越复杂,预测模型在匹配真实底层世界模型方面的表现越差。这进一步证实了AI在处理复杂系统时,其深层理解和泛化能力存在的局限性。

对科学发现与基础模型的深远启示

借助“归纳偏置”这一新指标,Vafa表示:“我们的希望是提供一种测试平台,可以在我们已知真实世界模型的问题上,评估不同的模型和不同的训练方法。”如果它在我们已知底层现实的这些案例中表现良好,那么我们就可以更有信心地认为,即使在“我们不真正了解真相”的情况下,其预测也可能有用。当前,人们已经尝试使用这些预测性AI系统来辅助科学发现,包括从未实际创建过的化合物性质、潜在药物化合物,或预测未知蛋白质分子的折叠行为和性质等。Vafa指出:“对于更现实的问题,即使是像基本力学这样的简单领域,我们发现仍有很长的路要走。”

Chang强调:“围绕基础模型存在大量炒作,人们正试图构建特定领域的基础模型——基于生物学的、基于物理学的、基于机器人技术的,以及适用于人们收集了大量数据的其他类型领域的基础模型,然后训练这些模型进行预测,并希望它能获取领域本身的某些知识,以用于其他下游任务。”

这项工作表明,我们还有很长的路要走,但同时也为未来的发展指明了方向。Chang表示:“我们的论文建议,我们可以应用我们的指标来评估表征学习的程度,这样我们就能想出更好的训练基础模型的方法,或者至少评估我们目前正在训练的模型。”作为一个工程领域,一旦我们有了衡量标准,人们在优化该标准方面就会表现得非常出色。这意味着,通过精确的度量工具,AI研究者和工程师可以更高效地迭代和改进模型,最终推动AI向着更深层次理解和更强大泛化能力的未来发展。