近年来,人工智能(AI)与机器学习(ML)在生物科学领域取得了诸多令人瞩目的成就,例如成功设计出可降解塑料的酶,以及能够有效阻断蛇毒的蛋白质等。在AI技术被广泛推崇的当下,人们可能很容易产生一种错觉,即认为只要将AI算法应用于海量的现有生物数据,便能迅速洞悉大多数生物学奥秘,从而省去繁琐的实验流程乃至动物研究的伦理考量。然而,这种观点无疑是过于乐观的,生物学远不止蛋白质结构那样简单直接。
事实证明,断言AI能够同样高效地处理生物学的所有方面,仍为时尚早。近期一系列针对基因活动的新研究揭示了一个发人深省的现象:目前的AI工具在特定生物学任务上,尤其是在预测基因活性方面,表现并未达到预期。这促使我们对AI在生命科学领域的实际能力边界进行更为审慎的评估,并警示我们在拥抱AI潜力的同时,需对其局限性保持清醒的认识。
人工智能与基因活性的复杂挑战
基因活性是生物体维持生命活动和响应环境变化的核心机制。在每个细胞中,虽然都承载着人类基因组中约两万个基因的完整拷贝,但并非所有基因在特定细胞或特定条件下都处于活跃状态。基因的“活跃”意味着它们正在生成信使RNA(mRNA),进而指导蛋白质的合成。有些基因负责维持细胞的基本功能,因此始终保持高水平的活性;另一些则只在特定的细胞类型中被激活,如神经细胞或皮肤细胞;还有一些基因则是在特定环境条件,例如低氧或高温下才会被诱导活化。
长久以来,科学家们通过多种实验方法,如基因芯片、单细胞RNA测序等,积累了大量关于不同条件下细胞内基因活性模式的数据。这些数据为我们构建基因活性与生物环境之间关系的宏观图景提供了基础。理论上,这些丰富的数据集可用于训练AI模型,使其能够预测在未经测试的条件下基因的活性变化。然而,这一过程的复杂性远超乎想象。基因调控网络错综复杂,涉及转录因子、表观遗传修饰、染色质结构等多个层面,且基因间的相互作用往往呈现高度非线性和动态变化的特征。
海德堡的三位研究人员——康斯坦丁·阿曼-埃尔策(Constantin Ahlmann-Eltze)、沃尔夫冈·胡伯(Wolfgang Huber)和西蒙·安德斯(Simon Anders)——对此进行了深入研究。他们的研究,以及同期发布的一些类似发现,都指向了同一个结论:当前的单细胞基础模型在预测基因活性变化方面的能力有限。这些模型虽然在广泛的数据集上进行了预训练,但它们在面对特定任务时,尤其是在预测基因被扰动后的活性变化时,往往力不从心。
单细胞基础模型的性能剖析
研究团队测试了一系列经过基因活性数据训练的单细胞基础模型。这里的“单细胞”指模型训练所用的基因活性数据来源于单个细胞,而非细胞群体的平均值;而“基础模型”则意味着它们已在广泛数据上完成初步训练,但仍需针对特定任务进行额外微调。他们所设定的任务是预测当基因被编辑后,其活性将如何改变。
当单个基因发生缺失或被激活时,有时唯一受影响的mRNA就是该基因自身编码的mRNA。然而,有些基因编码的蛋白质是其他基因的调控者,此时便可能导致几十个甚至更多基因的活性发生变化。在另一些情况下,基因的缺失或激活可能会影响细胞的整体代谢,从而引发广泛的基因活性重编程。更为复杂的是当两个基因同时被扰动时。在许多情况下,这两个基因的功能可能互不相关,效应呈简单的叠加;但如果它们的功能存在重叠或互相影响,则可能出现某些变化的增强、另一些变化的抑制,甚至产生完全意想不到的复杂协同效应。
为了探究这些复杂的效应,研究人员利用CRISPR DNA编辑技术,有目的地改变一个或多个基因的活性,然后对细胞中的所有RNA进行测序(称为Perturb-seq技术),以观察由此产生的基因活性变化。这种方法能够帮助我们理解被改变基因在细胞中的功能。对于阿曼-埃尔策、胡伯和安德斯而言,Perturb-seq提供的数据是评估这些基础模型能否准确预测基因活性后续变化的关键。
出乎意料的预测表现
研究人员首先利用Perturb-seq实验数据对这些基础模型进行了额外的训练。训练数据集包含了100个单独基因被激活的数据,以及62个双基因同时被激活的数据。随后,研究人员要求AI模型预测另外62对基因被激活后的结果。为了进行对照,他们还使用了两个极其简化的模型进行预测:一个模型总是预测没有任何变化(零模型),而另一个模型总是预测叠加效应(即激活基因A和基因B所产生的变化是各自激活A和B所导致变化的简单相加)。
结果令人失望。研究人员得出结论:“所有模型的预测误差都显著高于叠加基线模型。”即使研究人员采用其他衡量AI预测准确性的指标,这一结果依然成立。问题的症结似乎在于,这些训练后的基础模型在预测基因对扰动产生复杂模式变化时,即当一个基因的改变与第二个基因的改变发生协同作用时,表现不佳。“深度学习模型很少能预测出协同相互作用,而这些预测正确的情况则更为罕见。”研究人员进一步指出。在一项专门针对基因间协同作用的独立测试中,结果表明没有任何一个模型比始终预测“无变化”的简化系统表现得更好。
深层原因与生物学的内在复杂性
这项研究的总体结论非常明确。正如研究人员所写:“由于我们刻意简化的基线模型无法代表真实的生物复杂性,却仍未被这些基础模型超越,我们得出结论,后者旨在提供细胞状态的广义表征并预测尚未进行实验结果的目标仍遥不可及。”
AI模型之所以在预测复杂基因相互作用方面表现不佳,其根本原因在于生物系统的内在复杂性。基因调控网络并非简单的线性叠加,而是充满了反馈环路、并行通路以及突现(emergent)特性。一个看似微小的基因扰动,可能通过复杂的分子网络引发一系列级联反应,最终导致意想不到的宏观效应。当前的AI模型,尤其是基于大数据关联学习的模型,在捕获这种深层次的、非线性的、基于机制的复杂性方面存在固有缺陷。它们擅长从数据中学习模式和关联,但对于因果关系、系统动力学以及生物体对多重刺激的整合响应,其理解能力尚未成熟。简单的叠加模型之所以表现尚可,恰恰暴露了AI在超越表面关联、洞察底层生物逻辑方面的不足。
此外,即使是目前最全面的单细胞基因活性数据集,也可能不足以捕捉到所有可能存在的复杂相互作用。数据的稀疏性、噪声以及实验条件的差异,都可能进一步限制AI模型的学习能力。要让AI真正理解生物学,不仅需要海量数据,更需要高质量、高维度、涵盖多层次生物学信息的综合数据,以及能够处理这些复杂数据并推断深层生物学原理的智能算法。
对未来AI生物学研究的启示
需要强调的是,“遥不可及”并非意味着我们永远无法开发出能够解决这一问题的AI。这也不代表这些限制适用于所有的细胞状态(研究结果特指基因活性),更不适用于整个生物学领域。这项工作在当前AI热潮高涨、普遍认为AI在某些领域的成功预示着其可广泛应用于任何领域的背景下,提供了一个宝贵的警示。它促使我们以更加务实和批判的眼光审视AI在科学发现中的角色。
未来AI在生物学领域的研究方向,应超越单纯的模式识别和大数据关联,深入到对生物学原理和机制的理解。这可能需要开发新型的AI架构,例如结合知识图谱、因果推理或符号AI的混合模型,使其能够整合已知的生物学知识,而不仅仅是从头学习。同时,研究人员需要更巧妙地设计实验,以生成更高质量、更具信息量的数据,特别是在探索多基因、多维度相互作用方面。AI与生物学家的紧密协作将变得尤为关键,将AI强大的数据处理能力与人类对生物学复杂性的深刻直觉相结合,方能共同推动生命科学的边界。这项研究提醒我们,AI是强大的工具,但其有效性取决于其是否能真正理解并适应所处理领域的内在复杂性。只有正视并解决这些挑战,AI才能真正成为生物学研究的革命性力量。
此项研究成果发表于《自然方法》(Nature Methods)期刊,DOI: 10.1038/s41592-025-02772-6。