AI驱动生物学新范式:重塑生命科学的因果探索之路

0

卡罗琳·乌勒(Caroline Uhler)教授作为麻省理工学院安德鲁(1956)和埃尔娜·维特比工程学教授,以及数据、科学与社会研究所(IDSS)的电气工程与计算机科学教授,同时担任麻省理工学院和哈佛大学布罗德研究所施密特中心主任,并在该中心的核心研究团队中发挥领导作用。她专注于利用科学方法揭示生物系统中的因果关系,涵盖从观测变量的因果发现到因果特征学习及表征学习等多个层面。乌勒教授的工作核心在于探讨机器学习在生物学中的应用、亟待解决的问题以及施密特中心的前沿研究进展。

施密特中心围绕蛋白质、细胞、组织和有机体四个生物组织层级设定了独特的重点研究领域。当前,生物学和医学正经历一场深刻的“数据革命”,这使得现在成为攻克这些特定问题类别的最佳时机。基因组学、多组学、高分辨率成像和电子健康记录等大规模、多样化数据集的普及,为深入理解生命现象提供了前所未有的基础。DNA测序的成本效益和准确性、先进分子成像的常态化以及单细胞基因组学对数百万细胞的分析能力,将我们带入了生物学的新纪元。在这个时代,我们将超越生命单元的表征(如所有蛋白质、基因和细胞类型),转而深入理解“生命程序”,即基因回路逻辑、细胞间通信如何调控组织模式,以及基因型-表型图谱背后的分子机制。

与此同时,在过去十年中,机器学习取得了显著进步。BERT、GPT-3和ChatGPT等模型在文本理解和生成方面展现出卓越能力;视觉Transformer和CLIP等多模态模型在图像相关任务中达到了人类水平。这些突破为生物学数据提供了强大的架构蓝图和训练策略。例如,Transformer模型可用于模拟基因组序列,类似于处理自然语言;而视觉模型则能有效地分析医学和显微镜图像。

值得强调的是,生物学不仅是机器学习的受益者,更是新机器学习研究的重要灵感源泉。正如农业和育种曾推动现代统计学发展一样,生物学有望启发新的、甚至更深远的机器学习研究方向。与推荐系统和互联网广告等领域不同,生物学中存在可被发现的自然法则,物理可解释性现象普遍存在,而最终目标是揭示因果机制。此外,生物学拥有遗传和化学工具,能够进行其他领域难以比拟的大规模扰动筛选。这些综合特点使生物学在受益于机器学习的同时,也成为其深远发展的源泉。

然而,尽管机器学习在图像分类、自然语言处理和临床风险建模等预测任务中取得了显著成功,但在生物科学领域,仅仅关注预测准确性往往不足。这些领域的核心问题本质上是因果性的:特定基因或通路受扰动后如何影响下游细胞过程?干预如何导致表型变化?传统的机器学习模型主要针对观测数据的统计关联进行优化,通常难以回答这类干预性问题。因此,生物学和医学迫切需要激发机器学习领域新的基础性发展。

当前,高通量扰动技术——例如池化CRISPR筛选、单细胞转录组学和空间分析——能够系统地生成丰富的扰动数据集。这些数据模态自然呼唤超越模式识别、支持因果推断、主动实验设计以及复杂结构潜在变量设置下的表征学习模型的发展。从数学角度看,这需要解决可识别性、样本效率以及组合、几何和概率工具整合等核心问题。解决这些挑战不仅能为细胞系统机制带来新见解,还将推动机器学习的理论边界。

关于基础模型,业界普遍认为,我们距离创建一个跨尺度的、统一的生物学基础模型(类似于ChatGPT在语言领域的地位,一个能够模拟所有生物现象的“数字有机体”)尚远。尽管新的基础模型几乎每周都在涌现,但目前这些模型大多专注于特定的尺度和问题,并侧重于一种或少数几种模态。

蛋白质结构预测从其序列方面已取得显著进展。这一成功凸显了CASP(结构预测关键评估)等迭代式机器学习挑战的重要性,它们在评估蛋白质结构预测最先进算法并推动其改进方面发挥了关键作用。施密特中心正在组织挑战赛,以提高机器学习领域对生物医学科学中因果预测问题重要性的认识,并推动相关方法的进步。随着单细胞水平单基因扰动数据的日益增多,我们相信预测单次或组合扰动的效应以及哪些扰动能够驱动期望表型是可解决的问题。通过我们的细胞扰动预测挑战赛(CPPC),我们旨在提供客观测试和评估新扰动效应算法的平台。

另一个取得显著进展的领域是疾病诊断和患者分流。机器学习算法能够整合不同来源的患者信息(数据模态),生成缺失的模态,识别我们难以察觉的模式,并根据疾病风险对患者进行分层。尽管我们必须对模型预测中潜在的偏差、模型学习捷径而非真实关联的风险以及临床决策中自动化偏差的风险保持警惕,但我相信这是一个机器学习已经产生重大影响的领域。

施密特中心近期公布了一些令人振奋的研究成果。其中之一是与布罗德研究所的费飞博士合作开发的名为PUPS的方法,用于预测未知蛋白质的亚细胞定位。现有许多方法仅能基于其训练所用的特定蛋白质和细胞数据进行预测。然而,PUPS创新性地结合了蛋白质语言模型和图像修复模型,同时利用蛋白质序列和细胞图像。我们证明,蛋白质序列输入使其能够泛化到未见过的蛋白质,而细胞图像输入则能捕捉单细胞变异性,从而实现细胞类型特异性预测。该模型学习了每个氨基酸残基与预测的亚细胞定位的相关性,并能预测蛋白质序列突变引起的定位变化。鉴于蛋白质的功能与其亚细胞定位密切相关,我们的预测有望为潜在的疾病机制提供深入见解。未来,我们计划将此方法扩展到预测细胞中多种蛋白质的定位,并可能进一步理解蛋白质-蛋白质相互作用。

此前,我们与苏黎世联邦理工学院的长期合作者G.V. Shivashankar教授共同研究发现,结合机器学习算法,仅用荧光DNA嵌入染料标记染色质的简单细胞图像,就能揭示健康与疾病状态下细胞状态和命运的丰富信息。近期,我们进一步深化了这一观察,通过开发Image2Reg方法,证明了染色质组织与基因调控之间的深层联系,该方法能够从染色质图像预测未经检测的遗传或化学扰动基因。Image2Reg利用卷积神经网络学习扰动细胞染色质图像的信息表示。它还采用图卷积网络创建基因嵌入,该嵌入基于蛋白质-蛋白质相互作用数据并整合细胞类型特异性转录组数据,捕捉基因的调控效应。最终,它学习了细胞物理和生化表征之间的映射关系,使我们能够根据染色质图像预测受扰动的基因模块。

此外,我们最近完成了MORPH方法的开发,该方法旨在预测未知组合基因扰动的效应,并识别扰动基因之间发生的相互作用类型。MORPH能够指导实验室循环实验中信息量最大的扰动设计。更重要的是,其基于注意力(attention-based)的框架被证明能够识别基因间的因果关系,从而深入理解底层的基因调控程序。最后,得益于其模块化结构,MORPH可应用于各种模态的扰动数据,不仅限于转录组学,还包括成像数据。我们对该方法在有效探索扰动空间、通过连接因果理论与重要应用来增进对细胞程序理解的潜力感到非常兴奋,这对于基础研究和治疗应用都具有深远意义。