人工智能在生物学领域面临新挑战:基因活性预测的瓶颈与启示

1

近年来,人工智能(AI)和机器学习技术在生物科学领域展现出令人瞩目的潜力,取得了多项突破性进展。例如,AI在设计能够降解塑料的酶以及开发阻断蛇毒的蛋白质方面,都取得了前所未有的成功。这些成就一度让人产生错觉,认为AI可以轻而易举地处理我们已积累的海量生物数据,从而迅速揭示生物学的所有奥秘,甚至取代传统耗时耗力的实验研究和动物实验。

然而,生物学远不止蛋白质结构那么简单。细胞内部的运作机制、基因间的复杂调控网络以及环境因素的影响,构成了极其错综的系统。因此,断言AI能够同样高效地应对生物学所有层面,显然为时过早。近期发表的一系列研究对此提供了有益的警示,其中一项引人关注的调查,系统性地比较了旨在预测细胞在不同条件下基因活性变化的AI软件包的性能。结果出人意料:这些先进的AI系统在某些复杂任务上,竟然未能超越一种刻意简化的预测方法。

这项研究结果无疑为当前弥漫的AI乐观主义热潮敲响了警钟,再次提醒我们生物系统的内在复杂性远超想象。它清晰地表明,即使AI在某个生物学领域取得突破,也绝不意味着其能力可以泛化至整个生物学范畴,每个特定问题都需要针对性的解决方案和深入的理解。

AI与基因活性预测的深层挑战

这项具有里程碑意义的研究由海德堡的三位研究人员——康斯坦丁·阿尔曼-埃尔策(Constantin Ahlmann-Eltze)、沃尔夫冈·胡贝尔(Wolfgang Huber)和西蒙·安德斯(Simon Anders)共同完成。值得一提的是,在他们的研究成果作为预印本发布期间,同期还有数项类似研究问世,这些研究几乎都得出了相似的结论,进一步佐证了其发现的普遍性。阿尔曼-埃尔策等人的研究方法尤其清晰易懂,因此可以作为分析当前AI在生物学领域局限性的典型案例。

他们研究的核心在于评估AI软件预测基因活性变化的能力。我们知道,人体内的每个细胞都携带着大约两万个基因的副本,但并非所有基因在特定细胞中都是活跃的。这里的“活跃”指的是基因正在产生信使RNA(mRNA)。有些基因在任何时候都保持高水平的活性,执行着细胞的必需功能;另一些则只在特定的细胞类型中被激活,比如神经细胞或皮肤细胞;还有一些基因的活性则受特定条件触发,例如在低氧或高温环境下被诱导激活。正是这种动态且精密的调控机制,构成了生命复杂性的基石。

多年来,科学家们进行了大量研究,旨在解析特定细胞类型在不同条件下所有基因的活性状态。这些研究手段多样,从利用基因芯片检测细胞群中存在的mRNA,到通过单细胞测序技术分析单个细胞的RNA并识别活跃基因。这些研究成果汇聚起来,尽管尚不完整,却已构建了一个宏大的图景,将基因活性与各种生物学情境紧密关联。理论上,这个丰富的数据库可以用来训练AI模型,使其能够预测在尚未经过实验验证的条件下基因的活性。

阿尔曼-埃尔策、胡贝尔和安德斯团队测试了一组被称为“单细胞基础模型”的AI软件包。这些模型是在上述类型的基因活性数据上进行训练的。“单细胞”部分表示这些模型的数据来源是单个细胞的基因活性信息,而非细胞群体的平均数据。“基础模型”则意味着它们已经在大范围数据上进行了预训练,但在部署特定任务前,还需要进行额外的微调和训练。

预测性能的困境:出乎意料的平庸表现

此次研究中,AI模型的任务是预测基因在被修改后其活性的变化。当单个基因发生缺失或被激活时,有时唯一发生变化的信使RNA就是由该基因产生的。但更常见的情况是,某些基因编码的蛋白质具有调控一系列其他基因的功能,这种情况下,单个基因的改变可能导致数十个基因活性的同步变化。在另一些复杂情境中,基因的缺失或激活甚至会影响整个细胞的代谢,从而引发基因活性的广泛而深远的改变。

当涉及两个基因的相互作用时,情况会变得更为复杂。在许多情况下,这两个基因的功能彼此独立,其影响只是简单的叠加效应:即一个基因改变造成的影响,加上另一个基因改变造成的影响。然而,如果它们的功能存在某种程度的重叠,那么可能会导致一些变化被增强,另一些变化被抑制,甚至产生其他意想不到的、非线性的协同效应。

为了深入探究这些复杂的效应,研究人员利用CRISPR DNA编辑技术,有目的地改变一个或两个基因的活性,然后对细胞内的所有RNA进行测序,以观察随之发生的各种变化。这种被称为Perturb-seq的方法非常有用,因为它能帮助我们了解被改变基因在细胞内的具体功能。对阿尔曼-埃尔策、胡贝尔和安德斯团队而言,它提供了他们所需的数据,以评估这些基础模型是否能够被训练来准确预测其他基因活性的后续变化。

基因活性图解

研究人员首先利用CRISPR激活单个或两个基因的实验数据对这些基础模型进行了额外的训练。此次训练使用了100个单基因激活实验的数据和62个双基因激活实验的数据。随后,研究人员要求AI软件包预测另外62对被激活基因组合的结果。为了进行对比,研究人员还采用了两种极其简化的模型进行预测:第一种模型总是预测没有任何变化;第二种模型则总是预测一种简单的叠加效应(即激活基因A和基因B所引起的变化,等于单独激活A所引起的变化加上单独激活B所引起的变化)。

结果令人震惊:这些复杂的AI模型并未能如预期般展现出卓越的预测能力。研究人员总结道:“所有模型的预测误差都显著高于叠加基线。”即便研究人员采用其他替代指标来衡量AI预测的准确性,这一结果依然成立。这表明,AI在处理基因交互的复杂性方面存在固有缺陷。

问题的症结似乎在于,这些经过训练的基础模型在预测双基因改变何时会产生复杂模式变化——即当一个基因的改变与第二个基因的改变发生协同作用时——表现得非常糟糕。研究人员指出:“深度学习模型很少能预测出协同相互作用,而即使预测到了,其准确性也极其罕见。”在另一项专门针对基因间协同作用的测试中,结果更是令人沮丧:没有任何模型表现得比始终预测“无变化”的简化系统更好。

尚未企及的高度:对未来AI生物学应用的启示

这项工作的整体结论非常明确。研究人员写道:“由于我们特意设置的简单基线模型,尽管无法代表真实的生物学复杂性,却并未被这些基础模型超越,我们因此得出结论:后者旨在提供细胞状态的可泛化表示并预测尚未进行实验结果的目标,目前仍然遥不可及。”

需要强调的是,“仍然遥不可及”并非意味着我们永远无法开发出能够解决这一问题的AI。它也不意味着这适用于所有的细胞状态(这些结果特指基因活性),更不用说整个生物学领域。然而,在AI成功应用于少数领域就让人产生它将无所不能的狂热情绪之时,这项研究无疑提供了宝贵的警示。它提醒我们,在拥抱AI带来的巨大潜力的同时,必须保持清醒的头脑,认识到其当前的局限性,并避免过度泛化其成功经验。

未来,AI在生物学领域的应用需要更加精细化和专业化。可能需要开发全新的AI架构,能够更好地捕捉生物系统中的非线性关系和涌现特性;或者需要更具情境感知的训练数据,甚至将生物物理学和化学原理更深入地融入AI模型之中。仅仅依靠大数据和强大的算力,可能不足以破解生命科学中最深层次的谜团。这要求AI研究者与生物学家紧密合作,共同探索跨学科的创新方法,才能真正推动AI在理解和改造生命方面迈向新的纪元。

研究原文参考:Nature Methods, 2025. DOI: 10.1038/s41592-025-02772-6