人工智能在生物学领域:预测基因活性的深层挑战与未来展望

1

人工智能在生物学领域的应用边界:基因活性预测的挑战与启示

近年来,人工智能(AI)和机器学习在生物科学领域取得了令人瞩目的成就。从设计能够降解塑料的酶到开发用于阻断蛇毒的蛋白质,AI展现了其在复杂生物系统建模和干预方面的巨大潜力。然而,在AI热潮持续升温的当下,我们可能很容易产生一种错觉,即只要将AI应用于海量的生物数据,就能迅速洞悉生物学的奥秘,从而省去大量繁琐的实验乃至动物研究的必要性。但实际情况远比这复杂得多。

生物学研究远不止于蛋白质结构解析。将AI的成功经验盲目推广到生物学的所有方面,无疑是为时过早的。最近一系列针对基因活动预测的AI软件的比较研究,为我们敲响了警钟。这些研究发现,当前的人工智能系统在预测细胞内基因活性如何受不同条件影响方面,表现并未超越那些经过刻意简化的预测方法。这一结果深刻提醒我们,生物系统的复杂性远超想象,即便在特定生物学领域取得突破性进展的AI系统,也并不意味着其能普遍适用于整个生物学范畴。

基因活性与AI的深度探究

这项具有里程碑意义的研究由海德堡的三位研究人员——康斯坦丁·阿曼-埃尔茨(Constantin Ahlmann-Eltze)、沃尔夫冈·胡贝尔(Wolfgang Huber)和西蒙·安德斯(Simon Anders)共同完成。值得注意的是,在他们的研究成果作为预印本发布期间,已有其他独立研究得出了相似的结论,进一步印证了其发现的普遍性。

他们的研究核心在于评估AI软件预测基因活性变化的能力。细胞核内的遗传物质——DNA,携带着约20,000个基因的完整人类基因组副本。然而,在任何给定细胞中,并非所有基因都处于活跃状态。基因的“活跃”意味着它们正在生成信使RNA(mRNA),进而指导蛋白质合成。有些基因在任何时候都以高水平表达,发挥着必需的基础功能;另一些则仅在特定细胞类型中(如神经细胞或皮肤细胞)特异性表达;还有一部分基因则是在特定环境条件(如低氧或高温)下才被激活。

基因活性卡通示意图

多年来,科学家们通过大量实验研究了在不同条件下,特定细胞类型中每个基因的活性情况。这些研究方法多样,包括利用基因芯片检测细胞群中存在的mRNA,以及对单个细胞中分离出的RNA进行测序以识别活跃基因。这些积累的数据虽然不尽完善,但共同描绘了一幅基因活性与不同生物学情境之间关联的宏大图景。从理论上讲,这些数据可以作为训练AI模型的基石,使其能够预测在未经测试的条件下基因的活性。

阿曼-埃尔茨、胡贝尔和安德斯团队测试了一组被称为“单细胞基础模型”的AI软件包。这些模型是基于单细胞水平的基因活性数据训练的。“单细胞”意味着它们利用的是个体细胞而非细胞群平均水平的基因活性数据进行训练。而“基础模型”则表明这些模型已经在广泛的数据集上进行了预训练,但需要针对特定任务进行额外的微调。

基因交互预测:AI表现不及预期

这项研究所面临的具体任务是预测当基因发生改变时(例如基因被敲除或激活),基因活性将如何变化。当单个基因发生改变时,有时唯一受影响的mRNA就是该基因本身产生的mRNA。然而,有些基因编码的蛋白质具有调控一系列其他基因的功能,在这种情况下,我们可能会看到几十个甚至更多基因的活性发生变化。在另一些情况中,基因的缺失或激活可能会影响细胞的整体代谢,从而导致基因活性发生广泛而复杂的改变。

当两个基因同时发生改变时,情况会变得更加复杂。在许多情况下,这两个基因的功能可能互不相关,效应是简单的叠加:一个基因改变所引起的变化加上另一个基因改变所引起的变化。但如果它们的功能存在某种程度的重叠,就可能导致某些变化被增强,另一些变化被抑制,甚至出现其他意想不到的复杂相互作用。

为了探究这些复杂的效应,研究人员利用CRISPR基因编辑技术有意地改变一个或多个基因的活性,然后对细胞中的所有RNA进行测序(这种方法被称为Perturb-seq),以观察随后的变化。这种方法不仅有助于我们理解被改变基因在细胞中的具体功能,也为阿曼-埃尔茨、胡贝尔和安德斯团队提供了所需的数据,用以评估这些基础模型是否能够被训练来预测其他基因活性的后续变化。

研究人员首先使用基础模型,并利用来自CRISPR实验的数据进行了额外的训练,这些实验包括100个单独基因激活和62个双基因激活的数据集。随后,AI软件包被要求预测另外62对被激活基因的结果。为了进行对比,研究人员还使用了两种极其简单的模型进行预测:一种模型始终预测不会有任何变化,另一种模型则始终预测加性效应(即激活基因A和基因B所产生的变化是单独激活A所引起的变化与单独激活B所引起的变化的总和)。

结果令人失望。研究人员总结道:“所有模型的预测误差均显著高于加性基线。”即使研究人员采用其他方法衡量AI预测的准确性,这一结果依然成立。

问题症结似乎在于,经过训练的基础模型在预测双基因改变何时会产生复杂模式的变化——即一个基因的改变与第二个基因的改变发生协同作用时——表现得并不理想。研究人员进一步指出:“深度学习模型很少能预测协同相互作用,而这些预测能够准确的概率则更为罕见。”在另一项专门针对基因间协同作用的测试中,结果显示没有任何一个模型表现优于那个始终预测无变化的简化系统。

当前局限与未来展望:AI在生物学之路的漫漫征程

这项工作的整体结论十分清晰明了。研究人员写道:“鉴于我们刻意简化的基线模型无法代表现实的生物复杂性,却未被基础模型超越,我们得出结论,后者旨在提供细胞状态的通用表示并预测尚未进行的实验结果的目标,目前仍然难以实现。”

需要强调的是,“仍然难以实现”并不意味着我们永远无法开发出能解决这一问题的AI。这也不意味着所有细胞状态(研究结果特指基因活性)乃至整个生物学领域都受此限制。与此同时,这项工作在一个对AI在少数领域取得成功就抱有无限热情的时代,提供了宝贵的警示。它提醒我们,人工智能在特定生物学挑战中展现的强大能力,并不自动转化为其能够普遍解决所有生物学复杂问题的普适性工具。

生物系统的内在复杂性,尤其是在多基因相互作用和细胞应激响应等动态过程中,远非当前AI模型所能完全捕捉。这些系统不仅涉及海量的分子实体,更重要的是,它们内部存在着高度非线性、多层次的调控网络。简单的加性模型之所以能与复杂AI模型媲美,恰恰揭示了现有AI在理解和模拟这种深层、涌现性复杂性方面的不足。

未来的研究方向应着眼于开发更先进的AI架构,这些架构能够更好地融入生物学先验知识,并有效处理高维度、异构性的生物数据。此外,AI模型需要具备更强的因果推理能力,而不仅仅是关联性分析。这意味着模型不仅要能识别数据中的模式,更要理解这些模式背后的生物学机制和因果链条。将机器学习与系统生物学、计算生物学等领域的理论框架深度融合,构建能够捕获生物学动态过程和网络相互作用的AI模型,将是突破当前瓶颈的关键。例如,引入图神经网络(GNN)来模拟基因调控网络,或者结合强化学习来优化实验设计,都可能为AI在生物学领域的应用开辟新的路径。

尽管面临挑战,但这项研究并非否定AI在生物学领域的价值。它更像是一次必要的校准,提醒我们在AI的研发和应用中保持审慎和务实的态度。认识到AI的当前局限,正是推动其向更深层次、更广阔领域发展的起点。通过持续的跨学科合作,结合前沿的AI技术与深刻的生物学洞察,我们有望逐步克服这些挑战,最终让AI成为真正能够加速生物学发现和转化应用的关键力量。