人工智能在生物学领域的局限性:基因活性预测的挑战与前瞻
近年来,人工智能(AI)与机器学习在生物学领域取得了诸多引人注目的成就。从设计用于降解塑料的酶,到开发能够阻断蛇毒的蛋白质,AI的潜力似乎无可限量。然而,在AI热潮持续高涨的背景下,一种普遍的错觉也随之滋生:即我们只需将AI应用于海量的生物数据,便能轻松破解大部分生物学难题,从而规避复杂的实验过程乃至动物研究的不便。但生物学远不止蛋白质结构那样简单,其复杂性超乎想象。
断言AI能同样高效地处理生物学的所有方面,这显然为时过早。近期一系列针对基因活动的研究,便为这种盲目乐观泼了一盆冷水。这些研究致力于评估一套AI软件在预测细胞暴露于不同条件下的基因活跃程度方面的表现。结果令人深思:这些AI系统在预测基因活性方面的表现,竟然未能超越一种刻意简化的预测方法。这一发现提醒我们,生物学的内在复杂性巨大,开发适用于某个生物学特定方面的AI系统,并不意味着它们能普适于整个生物学领域,基因活动的复杂调控机制,目前仍超越了AI的理解范畴。
基因活动与AI的预测困境
这项具有警示意义的研究由海德堡的三位研究人员——康斯坦丁·阿曼-埃尔策(Constantin Ahlmann-Eltze)、沃尔夫冈·胡伯(Wolfgang Huber)和西蒙·安德斯(Simon Anders)共同完成。值得注意的是,在他们的工作进入预印本服务器期间,已有几项类似研究相继发布,并得出了大致相同的结论。然而,鉴于阿曼-埃尔策团队的研究方法易于理解,本文将以此为例进行深入探讨。
他们所考察的AI软件,旨在预测基因活动的变化。尽管每个细胞都携带人类基因组中约20,000个基因的副本,但在特定细胞中,并非所有基因都处于“活跃”状态——这里的“活跃”指的是它们正在产生信使RNA。有些基因提供必要功能,始终保持高水平活跃;有些只在特定细胞类型中活跃,如神经细胞或皮肤细胞;还有一些则在特定条件下被激活,如低氧或高温环境。
多年来,科学家们进行了大量研究,在不同条件下检查特定细胞类型中所有基因的活性。这些研究方法多样,从使用基因芯片确定细胞群中存在的信使RNA,到对单个细胞中分离出的RNA进行测序以识别哪些基因处于活跃状态。这些研究共同描绘了一个广泛而即便不完整的图景,将基因活动与不同的生物学环境联系起来。理论上,我们可以利用这些数据训练AI,使其能够预测尚未测试条件下的基因活动。
阿曼-埃尔策、胡伯和安德斯测试了一系列所谓的单细胞基础模型(single-cell foundation models),这些模型已在基因活动数据上进行了训练。“单细胞”部分表明这些模型的数据来源是单个细胞的基因活动数据,而非细胞类型的群体平均值。“基础模型”意味着它们已在广泛数据上训练,但需要额外训练才能用于特定任务。
表现低于预期:多基因交互的复杂性
本次研究的任务是预测基因改变时基因活动可能如何变化。当单个基因缺失或激活时,可能只有该基因产生的信使RNA会发生改变。但有些基因编码的蛋白质会调节一系列其他基因,在这种情况下,可能会看到数十个基因的活动发生变化。在其他情况下,基因的缺失或激活可能会影响细胞代谢,导致基因活动发生广泛改变。
当涉及两个基因时,情况会变得更加复杂。在许多情况下,基因的功能不相关,会产生简单的累加效应:一个基因缺失引起的变化,加上另一个基因缺失引起的变化。但如果功能之间存在重叠,可能会导致某些变化的增强、另一些变化的抑制以及其他意想不到的变化。
为了探究这些效应,研究人员利用CRISPR DNA编辑技术有意改变了一个或多个基因的活性,然后对细胞中的所有RNA进行测序,以观察发生了哪些变化。这种方法(称为Perturb-seq)非常有用,因为它可以让我们了解被改变的基因在细胞中的作用。而对阿曼-埃尔策、胡伯和安德斯而言,它提供了他们所需的数据,以确定这些基础模型是否可以被训练来预测随后其他基因活动的变化。
研究人员从基础模型开始,使用一项实验数据进行额外训练,该实验通过CRISPR激活了一个或两个基因。此训练使用了来自100个单独基因激活和62个双基因激活的数据。然后,AI模型被要求预测另外62对被激活基因的结果。为了进行比较,研究人员还使用了两种极其简单的模型进行预测:一种总是预测不会发生任何变化,另一种总是预测累加效应(即激活基因A和B会产生激活A引起的变化加上激活B引起的变化)。
结果令人沮丧。研究人员得出结论:“所有模型的预测误差都显著高于累加基线。”当研究人员使用替代的AI预测准确性测量方法时,结果仍然如此。
问题症结似乎在于,经过训练的基础模型在预测双基因改变何时会产生复杂变化模式方面表现不佳——即一个基因的改变与第二个基因的改变何时会产生协同作用。研究人员总结道:“深度学习模型很少能预测协同交互作用,而这些预测正确的情况则更为罕见。”在另一项专门针对基因间协同作用的测试中,结果表明,所有模型的表现都未能优于总是预测无变化的简化系统。
前路漫漫,慎待AI潜能
这项研究的总体结论非常明确。研究人员写道:“由于我们刻意简化的基线无法代表真实的生物复杂性,但这些基础模型却未能超越它们,因此我们得出结论,后者旨在提供细胞状态的可推广表征和预测尚未进行实验结果的目标仍遥不可及。”
需要强调的是,“仍遥不可及”并非意味着我们永远无法开发出能解决这个问题的AI。这也不代表这些结论适用于所有细胞状态(结果仅限于基因活动),更不用说所有生物学领域。但与此同时,在当前人们对AI在少数领域取得成功,就认为其即将能应用于任何事物的热情高涨之时,这项工作提供了一个宝贵的警示。它提醒我们,在拥抱AI的巨大潜能时,必须保持清醒的头脑,认识到其当前的局限性,并持续投入基础研究,以弥补AI在处理生命科学深层复杂性方面的不足。生命系统独特的涌现特性和非线性交互,需要超越现有模式识别的更深层理解框架,这正是未来AI生物学研究的关键方向。