机器学习如何赋能生物学?MIT教授揭示数据革命与因果推理的未来

4

机器学习引领生物学新纪元:从数据爆炸到因果洞察

当前,生物学与医学领域正经历一场前所未有的“数据革命”,海量、多样化的数据集以前所未有的速度生成。从高通量基因组学、多组学技术到高分辨率成像和电子健康记录,这些数据为我们理解生命复杂性提供了丰富资源。与此同时,机器学习技术,尤其是近年来BERT、GPT-3、ChatGPT等大型语言模型以及视觉Transformer和CLIP等多模态模型的突破,在处理文本和图像任务方面展现出接近人类甚至超越人类的能力。这两股强大的力量汇聚,为解决生物学核心问题带来了划时代的机遇。

Caroline Uhler教授,作为麻省理工学院的杰出学者,以及Broad研究所Eric and Wendy Schmidt中心的负责人,正站在这一交叉点的前沿。她致力于通过创新方法,特别是将机器学习与因果推理相结合,以揭示生物系统中的深层因果机制。施密特中心的研究聚焦于生物组织的四个关键层面:蛋白质、细胞、组织和有机体,旨在从微观到宏观全面解析生命现象。

Uhler教授在施密特中心

Uhler教授指出,机器学习的最新进展为理解这些不同层次的生物组织提供了独特视角。例如,Transformer模型可以类比处理语言序列的方式来分析基因组序列,而先进的视觉模型则能有效解析医学图像和显微镜数据。这种跨领域的借鉴与融合,使得科学家们能够超越传统分析的局限,探索更复杂的生物规律。

然而,生物学对机器学习的贡献并非单向。Uhler教授强调,生物学本身也可能成为机器学习新研究的灵感源泉。与推荐系统或互联网广告等领域不同,生物学现象具有物理可解释性,其最终目标是发现因果机制。同时,生物学拥有无与伦比的基因和化学扰动工具,能够进行大规模的实验筛选。这些独有特性使得生物学不仅是机器学习的受益者,更可能是推动其理论与方法创新的强大动力。

突破传统局限:从预测到因果推断

尽管机器学习在图像分类、自然语言处理和临床风险预测等任务中取得了显著成功,但在生物科学领域,仅仅的预测准确性往往不足以回答核心问题。生物医学中的许多根本性问题本质上是因果性的:特定基因或通路的扰动如何影响下游细胞过程?某种干预措施导致表型变化的具体机制是什么?传统的机器学习模型主要通过在观测数据中捕捉统计关联进行优化,通常难以有效地回答这类干预性问题。

Uhler教授思考生物学中的ML应用

Uhler教授清晰地认识到,虽然大规模多模态数据收集有望深化对复杂生物现象的理解并最终优化决策,但表示学习(representation learning)尽管在预测任务上表现出色,在因果任务(如预测干预效果)上却常常力不从心。鉴于生物医学中许多最具挑战性的开放问题都具有内在的因果性,她认为,将表示学习与因果推理相结合,不仅能极大地促进这些领域的发展,还将激发新的方法论突破。

目前,高通量扰动技术,如CRISPR筛选、单细胞转录组学和空间分析,能够生成在系统性干预下的丰富数据集。这些数据形态天然要求发展超越模式识别的模型,以支持因果推断、主动实验设计以及在复杂、结构化潜在变量环境下的表示学习。从数学角度看,这需要解决可识别性、样本效率以及组合、几何和概率工具的集成等核心问题。解决这些挑战不仅能为细胞系统机制带来新见解,也将拓展机器学习的理论边界。

Uhler教授还指出,尽管基础模型(foundation models)每周都在涌现,但我们距离创建一个跨尺度、能够模拟所有生物现象的“数字有机体”仍有很长的路要走。目前的基础模型多专注于特定尺度、特定问题或少数模态。然而,在蛋白质结构预测领域已取得显著进展,这得益于CASP(蛋白质结构预测关键评估)等迭代式机器学习挑战的推动。

施密特中心正积极组织各项挑战,旨在提高机器学习领域对生物医学中因果预测问题的认识,并推动相关方法的进步。Uhler教授相信,随着单细胞水平单基因扰动数据的日益增多,预测单次或组合扰动效果,以及确定哪些扰动能驱动期望表型,将是可解决的问题。例如,他们的“细胞扰动预测挑战”(Cell Perturbation Prediction Challenge, CPPC)旨在提供客观测试和基准评估算法的平台。

此外,在疾病诊断和患者分流方面,机器学习已展现出巨大潜力。通过整合不同来源的患者信息,算法能够生成缺失的模态数据,识别难以察觉的模式,并根据疾病风险对患者进行分层。尽管需要警惕模型预测中潜在的偏见、模型学习捷径而非真实关联的风险,以及临床决策中的自动化偏见,Uhler教授仍坚信这是一个机器学习正在产生重大影响的领域。

施密特中心的前沿探索:破解生物学奥秘

施密特中心的研究团队近期在多个前沿领域取得了令人振奋的突破,其成果有望深刻改变我们对生物系统的理解:

1. PUPS:预测蛋白质的亚细胞定位

与Broad研究所的Fei Chen博士合作,Uhler教授团队开发了一种名为PUPS(Prediction of Unseen Proteins’ Subcellular Location)的方法,用于预测未知蛋白质的亚细胞定位。现有许多方法仅能根据训练过的特定蛋白质和细胞数据进行预测。PUPS通过结合蛋白质语言模型和图像内绘模型,同时利用蛋白质序列和细胞图像。实验证明,蛋白质序列输入使其能够泛化到未见过的蛋白质,而细胞图像输入则能捕捉单细胞变异性,从而实现细胞类型特异性预测。该模型还能学习每个氨基酸残基与预测亚细胞定位的相关性,并预测因蛋白质序列突变引起的定位变化。由于蛋白质的功能与其亚细胞定位密切相关,这些预测有望为疾病的潜在机制提供深入见解。未来,团队计划将此方法扩展到预测细胞中多个蛋白质的定位,并可能进一步理解蛋白质-蛋白质相互作用。

2. Image2Reg:从染色质图像推断基因调控

Uhler教授与苏黎世联邦理工学院的长期合作者G.V. Shivashankar教授共同研究发现,结合机器学习算法,仅通过用荧光DNA嵌入染料标记染色质的简单细胞图像,就能获得大量关于细胞在健康与疾病状态下的信息。最近,他们进一步证实了染色质组织与基因调控之间的深层联系,开发出Image2Reg。该方法能够从染色质图像预测未见的经基因或化学扰动的基因。Image2Reg利用卷积神经网络学习扰动细胞染色质图像的信息表示,并采用图卷积网络创建基因嵌入,该嵌入基于蛋白质-蛋白质相互作用数据并与细胞类型特异性转录组数据集成,捕捉基因的调控效应。最终,它学习了细胞的物理和生化表示之间的映射,从而能够根据染色质图像预测受扰动的基因模块。

3. MORPH:探索组合基因扰动空间

团队近期还完成了MORPH方法的开发,用于预测未知组合基因扰动的效果,并识别受扰动基因之间发生的相互作用类型。MORPH能够指导“实验室闭环实验”中最具信息量的扰动设计。此外,其基于注意力(attention-based)的框架能够识别基因间的因果关系,从而深入了解潜在的基因调控程序。值得一提的是,得益于其模块化结构,MORPH可以应用于不同模态的扰动数据,包括转录组学和成像数据。Uhler教授团队对该方法寄予厚望,认为它将通过连接因果理论与重要应用,实现扰动空间的有效探索,从而推进我们对细胞程序的理解,对基础研究和治疗应用都具有深远意义。

这些前沿研究不仅展示了机器学习在生物医学领域的巨大潜力,也预示着一个以数据驱动、因果洞察为核心的科学探索新范式正在形成。通过不断突破传统界限,科学家们有望加速发现疾病的新机制、开发更精准的诊断工具和更有效的治疗方案,最终提升人类的健康福祉。