超越预期与回归现实:AI在基因活性预测中的挑战与启示

1

人工智能在生物学领域的双重挑战:超越已知边界的探索

近年来,人工智能(AI)与机器学习(ML)技术在多个科学领域取得了令人瞩目的成就,尤其是在生物学和生命科学的应用中。从设计高效降解塑料的酶,到开发能够阻断蛇毒的蛋白质,AI展现了其在复杂分子结构预测与优化方面的强大潜力。这股成功的浪潮,无疑催生了业界对AI无所不能的乐观预期,仿佛只要将海量生物数据输入AI模型,便能迅速揭示生命奥秘,从而大幅减少繁琐的实验流程,乃至规避动物研究的伦理考量。

然而,生物学的复杂性远超单一蛋白质结构的范畴。它是一个由无数动态、相互关联的分子事件构成的庞大系统。因此,断言AI能同样高效地处理生物学所有层面,尚为时过早。近期发表的一系列关于基因活性的研究,为这种过度的乐观情绪敲响了警钟。这些研究集中评估了旨在预测细胞在不同条件下基因活性的AI软件工具,结果却出乎意料:这些先进的AI系统,在预测基因活性的复杂变化方面,并未能超越一些特意简化的预测方法。

这一发现不仅是一次重要的警示,它深刻揭示了生物系统固有的复杂性。在特定生物问题上取得的AI突破,并不意味着其能力可以无缝迁移至整个生物学领域。这种局限性促使我们重新审视AI在生命科学中的应用策略与发展路径。

基因活性预测的挑战:一个复杂的生物网络

基因活性,即基因表达为信使RNA(mRNA)的过程,是细胞功能的基础。尽管人体内约有20,000个基因,但在特定细胞中,并非所有基因都处于活跃状态。有些基因负责维持细胞的基本生存,始终高水平表达;另一些则仅在特定细胞类型(如神经细胞或皮肤细胞)中激活;还有一些则是在特定环境条件(如缺氧或高温)下才被诱导表达。

长久以来,科学家们通过各种技术手段,如基因芯片分析、单细胞RNA测序等,积累了大量关于细胞在不同条件下基因活性图谱的数据。这些数据勾勒出基因活性与特定生物环境之间的广泛联系,理论上为训练AI模型以预测未知条件下的基因活性提供了可能。然而,这种“图谱”并非简单的因果关系,它更像是一个高度动态、非线性的交互网络。基因的激活或抑制,往往牵一发而动全身,涉及到转录因子、表观遗传修饰、非编码RNA、信号通路以及复杂的反馈回路。环境因素、细胞类型、发育阶段乃至个体差异,都对基因活性产生深刻影响。这种多层次、跨尺度的调控机制,使得基因活性的预测成为一个极具挑战性的生物信息学难题。

海德堡研究的洞见:AI的“短板”显现

由海德堡研究人员康斯坦丁·阿尔曼-埃尔策、沃尔夫冈·胡贝尔和西蒙·安德斯进行的研究,提供了一个理解AI在基因活性预测中局限性的清晰案例。他们特别指出,在他们的工作进入预印本阶段时,已有其他类似研究得出了大致相同的结论,这进一步印证了问题的普遍性。

该研究主要评估了一系列被称为“单细胞基础模型”的AI软件。这些模型已在各种基因活性数据上进行了预训练,其中“单细胞”指其训练数据来源于单个细胞的基因活性信息,而非细胞群体的平均值。作为“基础模型”,它们被设计为可以处理广泛的数据,但在应用于特定任务前通常需要额外的微调。

研究团队选择的任务是预测基因被编辑后其活性可能发生的变化。当单个基因被失活或激活时,有时仅该基因的mRNA水平受到影响;但更多情况下,若该基因编码的蛋白质负责调控其他基因,则可能导致数十甚至数百个基因的活性发生连锁反应。更复杂的是,某个基因的缺失或激活还可能通过影响细胞代谢,进而广泛改变整个基因表达谱。而当两个基因同时受到影响时,情况会变得更为扑朔迷离。简单叠加效应固然存在,但更常见的现象是功能重叠导致的协同增强、相互抑制或其他难以预测的复杂变化。

为了探索这些效应,研究人员利用CRISPR基因编辑技术,有意地改变一个或两个基因的活性,然后通过RNA测序(Perturb-seq)来检测细胞内所有RNA的变化。Perturb-seq技术能够系统性地揭示基因扰动对细胞状态的影响,为阿尔曼-埃尔策、胡贝尔和安德斯的研究提供了关键的数据集,用于评估这些基础模型是否能被训练以预测基因活性随之发生的变化。

基因活性图解

令人失望的表现:未能超越简单基线

研究人员首先利用CRISPR激活单个或两个基因的实验数据对这些基础模型进行了额外训练。训练数据包含了100个单独基因激活的案例和62个双基因激活的案例。随后,AI模型被要求预测另外62对基因同时激活后的结果。为了进行对比,研究人员还设置了两个极其简单的基线模型:一个模型始终预测基因活性不会发生任何变化;另一个模型则始终预测一种简单的加和效应,即激活基因A和基因B所引起的变化,等于单独激活A所引起的变化加上单独激活B所引起的变化。

结果令人震惊。研究人员总结道:“所有模型的预测误差都显著高于加和基线。”即便采用其他衡量AI预测准确性的指标,这一结论依然成立。这表明,这些经过训练的基础模型在预测双基因扰动产生的复杂模式,特别是当两个基因的改变产生协同效应时,表现得力不从心。“深度学习模型很少能预测协同互作,而预测正确的几率更是微乎其微,”研究人员指出。在一项专门针对基因间协同效应的独立测试中,结果显示没有任何一个模型能超越那个始终预测无变化的简化系统。

这项研究的核心问题似乎在于,当前的AI模型难以捕捉生物系统中的非线性相互作用和新兴属性。它们擅长从大数据中发现关联,但在理解和预测复杂的、超越简单叠加的因果关系时,显得力不从心。基因调控网络并非简单的线性链条,而是充满反馈、前馈、旁路以及多因子交叉调控的动态系统。目前的AI模型可能缺乏对这种深层生物逻辑的“理解”能力,或者说,它们训练所依赖的数据集可能还不足以全面捕捉这些复杂性。

前瞻与警示:AI在生物学领域的未来之路

这项研究的总体结论非常明确。研究人员写道:“鉴于我们刻意简化的基线模型尚无法代表真实的生物复杂性,却未被基础模型超越,我们得出结论,后者旨在提供细胞状态的可泛化表示并预测尚未进行的实验结果的目标,仍然遥不可及。”

然而,这并不意味着我们永远无法开发出能够有效解决此类生物学问题的AI。这项研究的价值在于,它在一个AI应用被过度吹捧的时代,提供了宝贵的审慎视角。它提醒我们,AI在某些领域的成功(如蛋白质结构预测)并不意味着它已经能够应对所有生物学挑战。生物系统的层级结构、时间动态性、异质性以及固有的随机性,都为AI带来了独特的难题。

要克服这些挑战,AI在生物学领域的未来发展可能需要多方面的突破。首先,我们需要更高质量、更全面、多模态的生物数据,这些数据不仅包含基因活性,还应涵盖蛋白质相互作用、代谢通路、细胞形态、环境刺激等信息。其次,AI模型架构需要创新,以更好地捕捉生物系统的非线性和动态特性,或许需要融合图神经网络、时序模型以及因果推理等更高级的技术。此外,将领域知识融入AI模型,创建“生物学感知”的AI系统,而非仅仅依赖于数据驱动的黑箱模型,将是关键一步。这可能意味着开发能够编码生物学定律和相互作用规则的混合AI模型。

归根结底,AI并非万能的解决方案,而是一个强大的工具。其有效性取决于对问题本身的深刻理解,以及数据、算法与领域知识的紧密结合。在面对生物学这样复杂且充满未知的领域时,我们需要保持清醒的头脑,既要拥抱AI带来的机遇,也要正视其当前的局限性,从而以更科学、更务实的方法推进生命科学的探索。