生物智能:AI在基因调控理解上为何仍面临五大挑战?

1

AI在生物学领域的双重面貌:成就与认知边界

近年来,人工智能(AI)和机器学习(ML)在生物科学领域取得了令人瞩目的进展。从设计能够有效降解塑料的酶,到开发阻断蛇毒的特异性蛋白质,AI展现了其在解决复杂生物问题上的巨大潜力。这些成功案例无疑为生物科技的未来描绘了宏伟蓝图,也催生了关于AI能够全面解读生物复杂性的过度乐观情绪。然而,在一片赞誉声中,我们必须清醒地认识到,生物世界远不止是简单的蛋白质结构解析,其内在的复杂性与动态性,对现有AI工具构成了前所未有的挑战。

近期一系列关于基因活性的新研究,为这种过度乐观情绪敲响了警钟。这些研究统一指向一个核心结论:尽管AI在某些特定生物学任务中表现出色,但其在全面理解和准确预测基因调控机制方面,仍显力不从心。这不禁引发我们深思:AI在生物学领域的真实能力边界究竟在哪里?我们是否过早地认为AI能够替代大量的湿实验室实验,甚至免去动物研究的繁琐与伦理困境?

基因活动示意图

基因活动:AI理解的复杂前沿

要理解AI面临的挑战,首先需要深入了解基因活动。人类基因组中约有两万个基因,但并非所有基因在特定细胞中都处于活跃状态。基因的“活跃”意味着它们正在产生信使RNA(mRNA),进而指导蛋白质合成。有些基因负责维持细胞的基本生存功能,因此始终保持高水平活跃;另一些则具有高度特异性,仅在特定细胞类型(如神经细胞或皮肤细胞)中被激活;还有一些基因则在特定环境条件(如低氧或高温)下才被诱导表达。

多年来,科学家们通过各种实验方法,如基因芯片技术、以及近年来飞速发展的单细胞RNA测序技术,积累了海量的基因活性数据。这些数据描绘了在不同生物环境下基因活动的动态图景,为我们理解基因功能和细胞状态提供了宝贵线索。理论上,如此庞大的数据集是训练AI模型,使其预测未测试条件下基因活动变化的理想基础。正是在这样的背景下,研究人员开始测试所谓的“单细胞基础模型”(single-cell foundation models),这些模型在广泛的基因活动数据上进行预训练,旨在为特定任务提供通用化的解决方案。

海德堡研究团队的康斯坦丁·阿尔曼-埃尔策(Constantin Ahlmann-Eltze)、沃尔夫冈·胡贝尔(Wolfgang Huber)和西蒙·安德斯(Simon Anders)对此进行了深入探究。值得注意的是,在他们这项工作在预印本服务器上发布期间,其他类似研究也相继问世,且得出了大致相同的结论,这进一步印证了其发现的普遍性。他们的研究方法清晰易懂,为我们揭示了AI在基因调控预测方面的真实性能。

基因活动过程图解

AI预测能力的显著不足:远低于预期的表现

这项研究的核心任务是评估AI模型预测基因活性如何因基因改变而变化的性能。当单个基因缺失或被激活时,有时仅是该基因产生的mRNA受到影响。然而,某些基因编码的蛋白质具有调节其他基因集合的功能,此时可能导致数十甚至数百个基因的活性发生连锁反应。更复杂的是,基因的缺失或激活还可能影响细胞整体代谢,引发基因活性的广泛性改变。

当涉及两个或更多基因时,情况变得尤为错综复杂。在许多情况下,基因可能执行不相关的功能,其影响呈现简单的叠加效应。但如果基因功能存在重叠,就可能出现某些变化增强、某些变化被抑制,甚至产生完全意想不到的复杂协同效应。为了探索这些复杂的相互作用,研究人员利用CRISPR基因编辑技术有目的地改变一个或多个基因的活性,然后通过Perturb-seq等技术对细胞中的所有RNA进行测序,以观察所发生的变化。这些实验数据为阿尔曼-埃尔策、胡贝尔和安德斯提供了宝贵的基准,用于评估其基础模型在预测后续基因活性变化方面的能力。

研究人员首先利用来自100个单基因激活实验和62个双基因激活实验的数据对这些基础模型进行了额外训练。随后,他们要求这些AI软件包预测另外62对被激活基因组合的结果。为了进行对照,研究人员还采用了两种极其简化的模型进行预测:一种模型总是预测不会发生任何变化;另一种模型则始终预测一种简单的叠加效应(即激活基因A和基因B所引起的变化等于单独激活A所引起的变化加上单独激活B所引起的变化)。

结果令人大跌眼镜。研究人员总结道:“所有模型的预测误差都显著高于叠加基线。”即便采用其他精度衡量标准,这一结果依然成立。问题的症结似乎在于,经过训练的基础模型在预测双基因改变何时会产生复杂模式(即一个基因的改变与第二个基因的改变发生协同作用)方面表现不佳。“深度学习模型很少预测协同相互作用,而这些预测正确的就更为罕见了,”研究人员得出结论。在一项专门针对基因间协同作用的独立测试中,结果显示没有一个模型优于始终预测无变化的简化系统。

深刻反思与未来展望:超越数据表象的生物学洞察

这项工作的总体结论清晰明了。研究人员写道:“鉴于我们刻意简化的基线模型尚无法代表真实的生物复杂性,却未被基础模型超越,我们得出结论,后者实现细胞状态通用化表示和预测未执行实验结果的目标仍遥不可及。”

“仍遥不可及”这一措辞至关重要,它并非意味着我们永远无法开发出能够解决此类问题的AI,而是强调了当前技术的局限性。同时,这也并非适用于所有细胞状态,其结果特指基因活性预测,更不代表适用于所有生物学领域。然而,这项研究在一个AI成功似乎无止境的时代,提供了一个宝贵的警示:AI在少数领域的成功,并不意味着它已经达到了可以普适应用于任何生物学问题的阶段。

究其深层原因,生物系统的复杂性远超当前AI的模式识别能力。首先,生物体是一个高度非线性、多层次的复杂系统,基因、蛋白质、代谢物之间的相互作用形成了一个庞大的网络。许多重要的生物学现象是“涌现性”的(emergent properties),即整体表现并非简单地由各部分叠加而成。当前的深度学习模型虽然擅长从大数据中学习复杂的模式,但其往往更侧重于相关性而非因果性,且其“黑箱”特性使得我们难以解释其预测背后的生物学机制,这极大地限制了其在科学发现中的作用。

其次,尽管生物数据量庞大,但高质量、高维度的“标注数据”——尤其是关于复杂基因间协同作用的数据——仍然相对稀缺。AI模型需要大量的精确数据来学习这些微妙的非线性关系,而现有数据的覆盖面和深度可能不足以捕捉所有生物学的细微差别。

面向未来,我们必须调整对AI在生物学中角色的期望。AI不应被视为替代传统生物学研究的“万能钥匙”,而应是辅助科学家探索未知、加速研究进程的强大工具。未来的AI生物学研究应更注重:

  • 原理驱动与数据驱动的融合:AI模型的设计应更深入地融入生物学原理,而不仅仅是依赖数据模式识别。例如,结合已知的生物通路信息、物理化学定律来构建更具生物学合理性的模型。
  • 可解释性与因果推理:开发具有更高可解释性的AI模型,能够揭示其预测背后的生物学依据,从而帮助科学家理解和验证新的生物学假说。同时,引入因果推理机制,超越简单的相关性,去识别真正的因果关系。
  • 湿实验室与AI的迭代闭环:加强AI模型预测与实际生物实验的紧密结合。AI提出假设并预测,实验进行验证,实验结果再反哺AI模型进行优化,形成一个持续迭代、螺旋上升的科学发现过程。

总之,AI在生物学领域的探索才刚刚拉开序幕。对其能力边界的清醒认知,是确保其健康、可持续发展的关键。在实现对生物系统全面、深刻理解的征途上,AI仍需与传统生物学方法紧密协作,共同攻克生命科学的终极奥秘。