Caroline Uhler教授,作为麻省理工学院安德鲁(1956)和埃尔娜·维特比工程学教授,以及数据、科学与社会研究所(IDSS)的电气工程与计算机科学教授,同时也是麻省理工学院和哈佛大学布罗德研究所施密特中心的负责人兼核心研究所和科学领导团队成员,专注于科学家在生物系统中揭示因果关系的所有方法,从观察变量的因果发现到因果特征学习和表示学习。她在采访中深入探讨了机器学习在生物学中的应用、亟待解决的问题领域以及施密特中心的尖端研究进展。
当前机器学习为何能解决生物学挑战?
生物学和医学正经历一场前所未有的“数据革命”。大规模、多样化的数据集,涵盖基因组学、多组学、高分辨率成像和电子健康记录,为研究提供了肥沃的土壤。DNA测序的成本效益和准确性、先进分子成像的普及以及单细胞基因组学对数百万细胞的分析能力,将我们带入了生物学的新纪元。这使得我们能够超越生命单元的表征(如所有蛋白质、基因和细胞类型),转而理解“生命程序”,例如基因回路的逻辑、细胞间通讯在组织模式形成中的作用以及基因型-表型图谱背后的分子机制。
同时,过去十年间,机器学习取得了显著进展。BERT、GPT-3和ChatGPT等模型在文本理解和生成方面展现出卓越能力,而视觉Transformer和CLIP等多模态模型在图像相关任务中达到了人类水平的性能。这些突破为生物数据提供了强大的架构蓝图和训练策略。例如,Transformer模型可以像处理语言一样建模基因组序列,而视觉模型则可以分析医学和显微镜图像。
更重要的是,生物学不仅是机器学习的受益者,更是新机器学习研究的重要灵感来源。正如农业和育种促进了现代统计学的发展,生物学有潜力激发新的、甚至更深刻的机器学习研究途径。与推荐系统和互联网广告等领域不同,生物学中存在可解释的物理现象,因果机制是最终目标。此外,生物学拥有遗传和化学工具,能够以其他领域无法比拟的规模进行扰动筛选。这些综合特征使得生物学独特地既能从机器学习中受益匪多,又能成为其深刻的灵感源泉。
“当前机器学习的格局为解决生物组织不同层面的问题,从蛋白质到有机体,提供了独特的机会,这得益于生物学的数据革命和AI的显著进步,”Caroline Uhler表示。
现有工具无法解决的生物学难题
机器学习在图像分类、自然语言处理和临床风险建模等预测任务中取得了显著成功。然而,在生物科学中,仅仅预测准确性往往不够。这些领域的基本问题本质上是因果性的:特定基因或通路受到扰动后如何影响下游细胞过程?干预措施如何导致表型变化?传统的机器学习模型主要针对观测数据中的统计关联进行优化,往往无法回答这类干预性问题。因此,生物学和医学迫切需要激发机器学习新的基础性发展。
目前,该领域配备了高通量扰动技术,如池化CRISPR筛选、单细胞转录组学和空间分析,这些技术在系统干预下生成了丰富的数据集。这些数据模式自然地需要开发超越模式识别的模型,以支持因果推断、主动实验设计以及在复杂、结构化潜在变量设置中的表示学习。从数学角度看,这要求解决可识别性、样本效率以及组合、几何和概率工具集成等核心问题。解决这些挑战不仅能深入了解细胞系统的机制,还能推动机器学习的理论边界。
对于基础模型,领域共识是,我们距离创建一个跨尺度、整体性的生物学基础模型还很遥远,类似于ChatGPT在语言领域所代表的——一种能够模拟所有生物现象的“数字生物体”。尽管新的基础模型几乎每周都会出现,但这些模型迄今为止都专注于特定尺度和问题,并且侧重于一种或几种模态。在从序列预测蛋白质结构方面已取得显著进展。这项成功突出了迭代机器学习挑战(如CASP)的重要性,这些挑战在基准测试和推动蛋白质结构预测最先进算法的改进中发挥了关键作用。
施密特中心正在组织挑战赛,以提高机器学习领域的意识,并在解决对生物医学科学至关重要的因果预测问题方面取得进展。随着单细胞水平上单基因扰动数据的日益增多,我们相信预测单次或组合扰动的影响,以及哪些扰动可以驱动期望的表型是可解决的问题。通过我们的细胞扰动预测挑战赛(CPPC),我们旨在提供客观测试和基准评估新扰动影响算法的手段。
另一个领域,即疾病诊断和患者分诊,也取得了显著进展。机器学习算法可以整合不同来源的患者信息(数据模态),生成缺失的模态,识别我们可能难以检测到的模式,并帮助根据疾病风险对患者进行分层。尽管我们必须对模型预测中潜在的偏见、模型学习捷径而非真实关联的风险以及临床决策中自动化偏见的风险保持警惕,但我相信这是一个机器学习已经产生重大影响的领域。
Uhler对科学和医学领域大规模多模态和干预数据收集的前景感到兴奋,但对从如此庞大的数据集中获得真正洞察所固有的问题保持清醒。“尽管大规模多模态数据收集有望深化对复杂生物现象的理解,并最终实现更好的决策,但表示学习尽管在预测任务中取得了成功,却常常在因果任务(如预测干预效果)中失败。鉴于生物医学科学中许多最具挑战性的开放问题本质上是因果性的,这些领域的进展将极大地受益于表示学习与因果推断的整合,同时激发进一步的方法学发展,”她说道。
施密特中心的突破性研究
施密特中心近期发布了多项引人注目的研究成果,展示了其在生物学和机器学习交叉领域的前沿探索。这些研究不仅推动了科学理解的边界,也为未来的治疗应用奠定了基础。
1. PUPS:预测未知蛋白质的亚细胞定位
我们与布罗德研究所的Fei Chen博士合作,开发了一种名为PUPS的方法,用于预测未知蛋白质的亚细胞定位。现有许多方法只能基于其训练的特定蛋白质和细胞数据进行预测。然而,PUPS结合了蛋白质语言模型和图像修复模型,以利用蛋白质序列和细胞图像。我们证明了蛋白质序列输入能够泛化到未知蛋白质,而细胞图像输入则能捕捉单细胞变异性,从而实现细胞类型特异性预测。该模型学习了每个氨基酸残基与预测亚细胞定位的相关性,并能预测蛋白质序列突变引起的定位变化。由于蛋白质功能与其亚细胞定位密切相关,我们的预测可以为潜在的疾病机制提供见解。未来,我们计划将此方法扩展到预测细胞中多种蛋白质的定位,并可能理解蛋白质-蛋白质相互作用。
2. Image2Reg:通过染色质图像预测基因调控
我们与苏黎世联邦理工学院的长期合作者G.V. Shivashankar教授此前已证明,结合机器学习算法,简单地用荧光DNA嵌入染料标记染色质的细胞图像,就能提供大量关于细胞在健康和疾病状态下的信息。最近,我们进一步深化了这一观察,并开发了Image2Reg,该方法通过染色质图像预测未见的遗传或化学扰动基因,从而证明了染色质组织与基因调控之间的深层联系。Image2Reg利用卷积神经网络学习扰动细胞染色质图像的信息表示。它还采用图卷积网络创建基因嵌入,该嵌入结合了蛋白质-蛋白质相互作用数据和细胞类型特异性转录组数据,捕捉基因的调控效应。最终,它学习了细胞的物理和生化表示之间的映射,使我们能够根据染色质图像预测扰动的基因模块。
3. MORPH:探索组合基因扰动和因果关系
此外,我们最近完成了MORPH方法的开发,该方法用于预测未知组合基因扰动的结果,并识别扰动基因之间发生的相互作用类型。MORPH可以指导设计最具信息量的扰动,用于实验循环实验。此外,基于注意力机制的框架可证明地使我们的方法能够识别基因之间的因果关系,从而深入了解潜在的基因调控程序。最后,凭借其模块化结构,我们可以将MORPH应用于各种模态的扰动数据,不仅包括转录组学,还包括成像数据。我们对该方法在有效探索扰动空间、通过将因果理论与重要应用联系起来以推进我们对细胞程序的理解、并对基础研究和治疗应用产生影响的潜力感到非常兴奋。
这些前沿研究成果不仅彰显了施密特中心在推动AI与生物学融合方面的领导地位,也预示着在理解生命复杂性、疾病机制和开发新型治疗策略方面,AI将发挥越来越关键的作用。通过持续的创新和跨学科合作,施密特中心正致力于解锁更多生命奥秘,为人类健康和科学进步贡献力量。