人工智能(AI)与机器学习方法在生物科学领域已取得了令人瞩目的成就。例如,在酶设计以消化塑料、以及构建能阻断蛇毒的蛋白质方面,AI展示了其强大的结构预测和优化能力。这些突破性进展,一度让人们对AI解决所有生物学难题抱持乐观态度,幻想能够跳过繁琐的湿实验与动物研究,直接通过海量数据解析生命奥秘。然而,生物学远不止蛋白质结构那样简单。细胞内部的基因活动、信号转导通路以及复杂的细胞间相互作用构成了极其庞大的动态网络,这使得将AI普适应用于生物学所有领域显得为时过早。近期一系列针对基因活性预测的独立研究,为这种盲目乐观泼了一盆冷水,揭示了当前AI工具在该领域的显著局限性。
由海德堡研究人员康斯坦丁·阿尔曼-埃尔策、沃尔夫冈·胡贝尔和西蒙·安德斯进行的一项研究,以及其他同期发表的类似发现,清晰地表明了这一点。他们的方法论旨在评估一系列旨在预测不同条件下细胞基因活性的AI软件包的表现。令人惊讶的是,这些先进的AI系统在预测基因活动变化方面的表现,竟然未能超越一种经过刻意简化的预测方法,即简单的加性模型。这一结果为我们提供了宝贵的警示:生物学系统的内在复杂性远超想象,AI在一部分领域的成功,并不能简单推断其能普遍适用于生物学的各个层面。这不仅对AI技术的发展提出了更高的要求,也促使我们重新审视AI在生命科学研究中的定位。
AI与基因活性的复杂性
要理解AI为何在基因活性预测上受挫,首先需深入了解基因活性的本质。人类基因组拥有约2万个基因,但并非所有基因在特定细胞中都处于活跃状态。基因的“活跃”意味着它们正在生产信使RNA,进而指导蛋白质合成。有些基因执行基本细胞功能,始终保持高水平活跃;另一些则只在特定细胞类型中(如神经细胞或皮肤细胞)特异性表达;还有的则响应特定环境条件(如低氧或高温)而被激活。多年来,科学家们通过基因芯片、单细胞RNA测序等技术,对各种条件下细胞内所有基因的活动进行了大量研究。这些数据汇集起来,虽然尚不完整,却构建了一个庞大的图谱,关联了基因活性与不同生物学情境,理论上可用于训练AI模型,使其能预测未经测试条件下的基因活性。
阿尔曼-埃尔策、胡贝尔和安德斯团队测试了一组所谓的“单细胞基础模型”(single-cell foundation models)。这些模型已经利用了大规模的基因活性数据进行预训练,其中“单细胞”部分强调其训练数据来源于单个细胞而非细胞群体平均水平。而“基础模型”则意味着它们是通用模型,虽已习得广泛知识,但仍需针对特定任务进行额外的微调。在本研究中,这些模型的特定任务便是预测基因被编辑后基因活性的变化。当单个基因被敲除或激活时,有时只有该基因的信使RNA发生改变;但若该基因编码的蛋白质负责调控其他基因,则可能导致数十甚至上百个基因的活性发生连锁反应。更复杂的情况是,基因的改变可能影响细胞代谢,从而引发基因活性的广泛重塑。
难以预测的协同效应
当涉及到两个或多个基因的相互作用时,情况会变得更为复杂。在许多情况下,基因的作用可能是独立的,表现出简单的加性效应:即一个基因的改变加上另一个基因的改变所引起的总效应。然而,如果基因功能存在重叠或交叉,则可能出现意想不到的非线性结果,例如某些变化的增强、另一些变化的抑制,甚至全新的表型效应。为了探索这些复杂相互作用,研究人员利用CRISPR基因编辑技术有意地改变一个或多个基因的活性,然后对细胞中的所有RNA进行测序(Perturb-seq技术),以揭示基因改变后发生的各类变化。Perturb-seq不仅能帮助我们理解被改变基因在细胞中的功能,更为阿尔曼-埃尔策团队提供了评估基础模型能否预测其他基因活性后续变化的关键数据。
研究人员利用来自CRISPR激活一个或两个基因的实验数据对基础模型进行了额外的训练。该训练集包含了100个单基因激活数据和62个双基因激活数据。随后,研究人员要求这些AI模型预测另外62对基因激活的实验结果。作为对比,他们还使用了两种极其简单的模型进行预测:一种模型始终预测基因活性不会发生任何变化(基线1),另一种则始终预测为简单的加性效应(基线2,即激活基因A和B产生的变化等于单独激活A的变化加上单独激活B的变化)。结果令人大跌眼镜:“所有模型的预测误差都显著高于加性基线,”研究人员总结道。即使采用替代性的准确性衡量指标,这一结果依然成立。这表明这些经过训练的基础模型在预测基因对的改变何时会产生复杂模式的变化——即一个基因的改变何时与第二个基因的改变协同作用——方面表现非常糟糕。
核心问题似乎在于,这些深度学习模型极少能正确预测协同互动。“深度学习模型很少能预测协同作用,而其预测正确的案例更是凤毛凤角,”研究人员指出。在专门针对基因间协同作用的独立测试中,结果显示没有任何一个模型能比那个始终预测无变化的简化系统表现更好。这揭示了当前AI在处理生物学中的非线性、 emergent properties(涌现特性)方面的深层缺陷。协同效应通常不是简单的累加,而是多个组分相互作用后产生的全新属性,这需要模型具备更高级的推理和泛化能力,而非仅仅是模式识别。现有的AI架构,即便是在海量数据上训练,也难以捕捉到这种深层次的因果关系和涌现机制。
未来的发展方向与警示
这项工作的总体结论非常明确。“鉴于我们刻意简化的基线模型无法代表真实的生物学复杂性,却未被这些基础模型超越,”研究人员写道,“我们认为,后者旨在提供细胞状态的可泛化表示并预测尚未进行实验结果的目标,目前仍难以实现。”强调“难以实现”并不意味着我们永远无法开发出能解决此问题的AI。它也不意味着这适用于所有细胞状态(结果特指基因活性),更遑论所有生物学领域。但这项工作在当前AI热潮中提供了一个宝贵的警示,即AI在某些领域的成功,并不意味着它能立即成为解决所有问题的万能钥匙。生物学,尤其是在微观层面和复杂相互作用方面,其固有的非线性、动态性以及多尺度整合特性,对AI的表征学习能力构成了严峻挑战。未来的研究需要更精巧的模型架构、更庞大的多模态数据整合,以及对生物学原理更深刻的理解,才能真正让AI在生命科学领域发挥其全部潜力,与传统实验科学形成协同互补,共同推动人类对生命的认知边界。