AI在生物学领域面临的局限:基因活性预测的挑战与未来路径

1

人工智能(AI)在科学探索中已成为一股不可忽视的力量,尤其是在生物信息学和生物工程等领域,其在蛋白质结构预测、酶设计(如降解塑料的酶)以及开发新型疗法(如阻断蛇毒蛋白)方面取得了令人瞩目的成就。这些突破性进展,一度让人产生AI能够轻易驾驭生物学所有复杂面向的乐观预期,甚至设想通过AI分析海量数据,就能取代耗时耗力的实验研究,包括那些涉及动物的环节。然而,近期一系列针对基因活动预测的研究,如同清醒剂一般,揭示了AI能力边界的现实,特别是在理解和预测细胞内复杂基因调控网络方面,AI工具仍显力不从心。

基因活动的复杂世界:AI面临的核心挑战

生物学远非仅仅是蛋白质结构那么简单。细胞是高度动态且相互关联的系统,其中基因活动(即基因表达并生成信使RNA的过程)是其核心。尽管人类基因组拥有约2万个基因,但在任何给定细胞中,并非所有基因都处于活跃状态。有些基因负责维持细胞基本功能,始终高水平表达;另一些则具有细胞类型特异性,仅在神经细胞或皮肤细胞等特定组织中活跃;还有一些基因的激活则取决于特定的环境条件,例如低氧或高温。这种高度情境化、动态变化的基因表达模式,构成了生物学中最为精微且复杂的调控机制之一。

长期以来,科学家们通过基因芯片、单细胞RNA测序等技术,对不同条件下细胞内所有基因的活动进行深入研究,积累了大量数据。这些数据在某种程度上描绘了基因活动与生物学情境之间的联系,为AI训练提供了潜在的“知识库”,旨在让AI预测未曾实验过的条件下基因活动的可能变化。然而,正是这种看似详尽的数据,在面对深层次的生物学机制时,暴露出AI目前的局限性。

海德堡研究:揭示AI预测基因活动的局限性

一项由海德堡研究人员Constantin Ahlmann-Eltze、Wolfgang Huber和Simon Anders共同进行的研究,系统性地比较了一系列旨在预测细胞在不同条件下基因活动变化的AI软件包。这项研究及其同期发表的其他类似工作,不约而同地指向了一个结论:目前的AI系统在预测基因活动变化方面的表现,并未超越甚至有时不如经过“有意简化”的预测方法。这为当前AI在生物学领域过度宣传的趋势敲响了警钟,强调了生物系统的固有复杂性以及为特定生物学问题开发AI系统所面临的独特挑战。

基因活动图

单细胞基础模型的性能测试

该研究主要评估了“单细胞基础模型”(single-cell foundation models)的性能。这些模型基于从单个细胞而非细胞群体平均数据中获得的基因活动数据进行训练,并通过广泛的数据预训练后,需要针对特定任务进行进一步微调。本研究中的特定任务是预测当基因被改变(例如缺失或激活)时,基因活动将如何变化。

基因的改变可能导致多种后果:有时,只有被改变基因所产生的信使RNA会发生变化;有时,如果被改变的基因编码的是调节其他基因的蛋白质,则可能导致数十个甚至更多基因的活动发生变化;在更复杂的情况下,基因的改变可能会影响细胞代谢,从而引起基因活动的广泛性重编程。当涉及到两个基因同时改变时,情况会变得更为复杂。在许多情况下,基因的作用可能是简单的叠加,即一个基因的变化加上另一个基因的变化。但如果两个基因的功能存在重叠,则可能导致某些变化被增强、某些被抑制,甚至出现完全意想不到的协同效应。

研究人员利用CRISPR基因编辑技术,有意地改变一个或两个基因的活动,并随后对细胞中的所有RNA进行测序(即Perturb-seq方法),以观察由此引发的基因活动变化。这些数据被用于训练上述单细胞基础模型,其中包括100个单一基因激活的数据和62个双基因激活的数据。随后,AI软件包被要求预测另外62对基因激活后的结果。为了进行对照,研究人员还采用了两种极其简单的模型进行预测:一种模型总是预测基因活动不会有任何变化,另一种模型则总是预测简单的叠加效应(即激活基因A和B会产生激活A所引起的变化加上激活B所引起的变化)。

令人失望的结果分析

研究结果清晰地表明,这些复杂的AI模型未能达到预期。“所有模型的预测误差均显著高于加性基线模型,”研究人员总结道。即便采用其他衡量AI预测准确性的指标,这一结果也依然成立。问题的症结在于,经过训练的基础模型在预测双基因改变如何产生复杂模式——尤其是当一个基因的改变与另一个基因的改变产生协同作用时——表现非常不佳。研究人员指出,“深度学习模型很少预测到协同作用,而这些预测是正确的则更为罕见。”在另一项专门针对基因间协同作用的测试中,结果显示没有任何一个AI模型表现优于总是预测“无变化”的简化系统。

生物系统复杂性与AI的挑战:深层原因剖析

这些“令人失望”的结果并非偶然,它们深刻反映了生物系统在以下几个方面给AI带来的根本性挑战:

1. 非线性与涌现特性

基因调控网络是非线性、高度互联的复杂系统。简单地扰动一个基因,其影响可能通过多条路径在网络中级联,产生难以预测的非线性效应和涌现特性。目前的AI模型,尤其是在训练数据中协同效应模式不足时,难以捕捉这些深层次的非线性关系。它们擅长识别静态、重复的模式,但在面对动态、情境依赖且具有涌现性质的生物学交互时,其泛化能力受到严重限制。

2. 数据稀疏性与异质性

尽管生物学数据量庞大,但对于涵盖所有可能的基因交互组合以及不同细胞状态和环境条件下的数据而言,仍然是高度稀疏的。同时,生物学数据本身具有显著的异质性和噪音。AI模型需要大量的、高质量的、多样化的数据来学习复杂的生物学规律,而现有数据在广度和深度上往往不足以支撑AI在更高维度的生物学问题上进行有效学习和泛化。

3. 因果推断的挑战

AI模型擅长发现数据中的相关性,但在生物学研究中,我们更需要理解因果关系。从高维度的观测数据中推断复杂的、间接的因果链条是极其困难的,特别是当基因间的相互作用是多方面的、受时间序列影响的,并且存在隐藏变量时。当前的“黑箱”AI模型往往难以提供清晰的因果解释,这限制了它们在科学发现和机制理解中的应用。

4. 缺乏生物学机制感知能力

许多深度学习模型在本质上是数据驱动的,它们学习的是数据中的统计规律,而非内嵌的生物学原理。这意味着它们不具备关于基因调控网络、信号传导通路或细胞代谢路径等基本生物学机制的内在理解。当面临需要这些机制知识才能准确预测的复杂情景(如协同作用)时,纯粹的数据驱动模型便会力不从心。

展望未来:AI在生物学领域的发展路径

这项研究的总体结论是明确的:“鉴于我们刻意简化的基线模型尚不能完全代表现实的生物学复杂性,但其性能并未被当前的基础模型超越,我们得出结论,后者旨在提供细胞状态的通用化表征并预测尚未进行实验结果的目标,目前仍难以实现。”

但这并不意味着我们永远无法开发出能解决此类问题的AI。相反,这项工作在AI充满无限可能论调的时代,提供了一个宝贵的警示。它促使我们重新审视AI在科学领域的角色,并思考如何更负责任、更有效地利用这项技术。

1. 开发生物学感知型AI架构

未来的AI模型需要超越纯粹的数据驱动,将更多的生物学先验知识和机制理解融入其架构中。例如,可以通过图神经网络(GNN)来更好地建模基因调控网络,或者整合已知的信号通路信息,使模型具备更强的生物学“常识”。

2. 增强模型可解释性

对于科学研究而言,仅仅得到一个预测结果是不够的,理解预测背后的原因同样重要。开发可解释的AI(XAI)技术,能够帮助研究人员理解模型为何在某些情况下失败,以及在哪些地方可能存在新的生物学机制未被发现,从而指导后续的实验设计。

3. 创新数据生成策略

为了克服数据稀疏性,需要开发更智能的数据生成策略。例如,AI可以被用来设计最能揭示复杂基因交互作用的“主动学习”实验,而不是被动地从现有数据中学习。同时,整合多模态生物学数据(如基因组学、蛋白质组学、表观遗传学和空间组学数据),可以为AI提供更丰富、更全面的细胞状态表征。

4. 采用混合建模方法

将传统的机制驱动( mechanistic-driven)生物学模型与数据驱动的机器学习方法相结合,可能是一个更为有效的路径。机制模型可以提供基本框架和约束,而AI则可以学习填充其中复杂的、难以形式化的部分,共同构建更强大、更可靠的预测系统。

结语

AI在生物学领域的应用仍处于早期阶段,其在基因活性预测上的局限性提醒我们,科学进步是一个渐进且需要不断修正的过程。认识到这些限制并非否定AI的价值,而是为了更好地校准我们的期望,并指引我们走向开发更加智能、更具生物学洞察力的人工智能工具的道路。通过持续的跨学科合作,以及对生物学复杂性保持敬畏,我们有望构建出能够真正加速生物医学发现,并最终改善人类健康的AI系统。