基因活动:AI理解生物复杂性的新挑战
人工智能(AI)在生物科学领域取得了令人瞩目的成就,例如设计消化塑料的酶和阻断蛇毒的蛋白质。这使得一些人乐观地认为,AI能够处理生物学中的所有数据,从而取代复杂的实验,甚至规避动物研究的伦理困境。然而,最新的研究揭示了一个重要的局限性:AI工具目前在理解基因活动方面表现欠佳。
生物学远远不止蛋白质结构那么简单。它涉及无数复杂的相互作用和动态过程。因此,期望AI能普遍有效地处理所有生物学方面的问题还为时过早。近期一项引人注目的研究,对多款旨在预测细胞在不同条件下基因活性的AI软件包进行了比较测试。结果令人意外:这些AI系统未能超越一种刻意简化的预测方法。
这项研究为我们敲响了警钟,再次强调生物学固有的复杂性。在特定生物学领域取得的AI成功,并不意味着它能普遍适用于整个生物学范畴。这项发现敦促我们在AI应用方面保持审慎和现实的态度。
AI与基因活动预测的困境
这项由海德堡研究人员Constantin Ahlmann-Eltze、Wolfgang Huber和Simon Anders共同完成的研究,虽然在预印本阶段已有类似结论的其他研究发布,但其方法论清晰易懂,为我们提供了深入理解该问题的良好范例。
他们研究的AI软件旨在预测基因活性的变化。在一个包含约20,000个基因的人类基因组中,并非所有基因在特定细胞中都处于活跃状态。基因的“活跃”指的是它们正在产生信使RNA(mRNA)。有些基因持续高水平活跃,提供基本功能;有些仅在特定细胞类型中活跃,如神经细胞或皮肤细胞;还有些则在特定环境条件下,如低氧或高温下才会被激活。
多年来,科学家们通过大量研究,在不同条件下检查了特定细胞类型中每个基因的活性。这些研究包括使用基因芯片检测细胞群中的mRNA,以及通过单细胞RNA测序识别活跃基因。这些数据共同构成了基因活性与生物环境之间广泛但非完全的关联图谱。理论上,这为训练AI模型提供了基础,使其能够预测未经测试条件下的基因活性。
Ahlmann-Eltze、Huber和Anders测试了一系列基于此类基因活性数据训练的单细胞基础模型。“单细胞”意味着这些模型基于单个细胞而非细胞群体平均值获取的基因活性数据进行训练。“基础模型”则表明它们在大范围数据上进行过预训练,但需要针对特定任务进行额外的微调。
性能表现平平:AI未能超越简化基线
此次任务是预测基因改变后基因活性的变化。当一个基因被缺失或激活时,可能只有该基因产生的mRNA发生变化。然而,某些基因编码的蛋白质可能调控一系列其他基因,此时可能会看到数十个基因活性的变化。在其他情况下,基因的缺失或激活可能影响细胞代谢,导致基因活性发生广泛而全面的改变。
当涉及两个基因时,情况变得更加复杂。很多时候,两个基因的功能不相关,产生简单的累加效应:一个基因缺失引起的变化,加上另一个基因缺失引起的变化。但如果它们的功能存在某种重叠,则可能出现某些变化的增强、另一些变化的抑制,以及其他意想不到的复杂效应。
为了探究这些效应,研究人员使用CRISPR基因编辑技术有意地改变一个或多个基因的活性,然后对细胞中的所有RNA进行测序,以观察发生了哪些变化。这种方法(称为Perturb-seq)非常有用,因为它能让我们了解被改变的基因在细胞中的作用。对于Ahlmann-Eltze、Huber和Anders而言,它提供了所需数据,以确定这些基础模型是否能被训练来预测其他基因活性的后续变化。
研究人员首先利用CRISPR激活一个或两个基因的实验数据对基础模型进行了额外的训练。该训练使用了来自100个单一基因激活实验和62个双基因激活实验的数据。随后,AI软件包被要求预测另外62对基因激活的结果。作为对比,研究人员还使用了两个极其简单的模型进行预测:一个模型总是预测没有变化,另一个模型总是预测累加效应(即激活基因A和B会产生激活A的变化加上激活B的变化)。
结果令人失望。研究人员总结道:“所有模型的预测误差都显著高于累加基线。” 即使使用替代的AI预测准确性衡量标准,这一结果也依然成立。
问题的症结似乎在于,训练后的基础模型在预测双基因改变何时会产生复杂变化模式时表现不佳——即当一个基因的改变与第二个基因的改变协同作用时。研究人员得出结论:“深度学习模型很少能预测协同相互作用,而这些预测正确的就更少了。” 在一项专门针对基因间协同作用的独立测试中,结果显示没有一个模型优于总是预测无变化的简化系统。
仍处于探索阶段:AI在生物学应用中的未来展望
这项研究的总体结论非常明确。研究人员写道:“鉴于我们刻意简化的基线模型无法代表真实的生物复杂性,却未被基础模型超越,我们认为后者旨在提供细胞状态的通用表示并预测尚未进行实验结果的目标仍遥不可及。”
值得强调的是,“遥不可及”并不意味着我们永远无法开发出能解决此问题的AI。它也不意味着这适用于所有细胞状态(结果仅限于基因活动),更不用说整个生物学领域了。然而,在当前AI在某些领域取得成功,引发人们对其能应用于任何领域的普遍乐观情绪时,这项工作提供了一个宝贵的警示。
未来的研究需要更深入地理解生物系统的非线性相互作用和涌现特性,这可能需要开发全新的AI架构和训练范式。结合多模态数据,如基因组学、蛋白质组学和代谢组学,并引入更强大的因果推理机制,或许能帮助AI更好地捕捉生物学的深层逻辑。与此同时,研究人员需要持续改进实验设计,生成更高质量、更具代表性的训练数据,以弥补当前数据的不足。只有通过这种多维度的协同努力,我们才能逐步将AI在生物学领域的应用推向更深远的层次,实现其在复杂生命现象理解和预测上的真正潜力。
这项研究成果已发表于《Nature Methods》,为AI在生物学领域的进一步发展指明了方向,促使研究者们在追求通用智能的同时,更加关注特定科学领域的深层挑战与实际限制。
参考文献
Nature Methods, 2025. DOI: 10.1038/s41592-025-02772-6