AI突破:基于细菌基因组训练生成全新蛋白质

0

引言:从蛋白质到基因组的AI革命

近年来,人工智能系统在生物学领域取得了显著成就,特别是在蛋白质结构与功能关系方面。从预测大多数蛋白质的三维结构,到设计具有特定功能的蛋白质,AI技术正在重塑生物医学研究的前沿。然而,这些传统方法大多直接针对蛋白质本身及其构建单元氨基酸,而忽略了生物体产生新蛋白质的根本机制——核苷酸层面的变化。

斯坦福大学研究团队最新开发的"基因组语言模型"Evo,标志着这一领域的重大突破。该模型通过训练细菌基因组数据,成功生成了一系列功能性的全新蛋白质,其中一些与已知蛋白质几乎没有相似性。这一发现不仅挑战了我们对蛋白质设计的传统认知,更为生物技术和药物开发开辟了全新途径。

基因组语言模型:Evo的诞生

细菌基因组的组织规律

细菌基因组中存在一个显著特征:功能相关的基因往往聚集在一起。细菌通常会将执行特定功能所需的所有基因——如导入和消化某种糖类、合成特定氨基酸等——在基因组中紧密排列。在许多情况下,这些基因会被转录成一条大型信使RNA,使细菌能够同时调控整个生化途径的活动,提高代谢效率。

这种基因簇的组织方式为AI系统提供了学习基因组语言的自然框架。研究团队基于这一特点,开发了名为Evo的基因组语言模型,使用了庞大的细菌基因组集合进行训练。

训练方法与模型特点

Evo的训练过程类似于大型语言模型(LLM)的训练方式。系统被要求预测序列中的下一个碱基,预测正确时获得奖励。同时,Evo也是一个生成式模型,能够根据输入提示生成具有随机性的新序列——同一提示可以产生多种不同的输出。

研究团队表示,这种设置使Evo能够"将核苷酸层面的模式与千碱基尺度的基因组上下文联系起来"。换言之,当输入大段基因组DNA作为提示时,Evo能够像LLM解释查询一样理解输入,并在基因组意义上生成适当的输出。

验证测试:从已知到未知

完成已知基因序列

为了测试Evo的能力,研究团队首先使用已知蛋白质基因片段作为提示,观察系统是否能完成这些序列。在一个测试案例中,当输入已知蛋白质基因序列的30%时,Evo能够输出其余85%的序列;当输入80%的序列时,系统能够完整返回缺失部分。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失基因。

大量训练数据确保了Evo能够准确识别蛋白质的关键区域。如果对序列进行修改,这些修改通常位于蛋白质中可变性的区域——换句话说,其训练使系统能够 incorporate 已知基因变化的进化规则限制。

生成全新抗毒素蛋白

在进一步测试中,研究团队转向了一个更具挑战性的任务:让Evo生成全新蛋白质。他们选择了细菌毒素作为研究对象,这些毒素通常与抗毒素基因共同编码,以防止细胞在激活基因时自我毁灭。自然界中存在大量毒素-抗毒素系统,它们在细菌与竞争对手的军备竞赛中快速进化。

研究团队开发了一种与已知毒素仅有微弱关联且无已知抗毒素的毒素,将其序列输入Evo作为提示,并过滤掉任何与已知抗毒素基因相似的响应。在测试Evo返回的10个输出中,有5个能够挽救部分毒性,其中2个完全恢复了产生毒素的细菌的生长能力。

值得注意的是,这两种抗毒素与已知抗毒素的序列相似性极低,仅约25%。它们并非简单地将已知抗毒素的几个片段拼接而成;至少,它们似乎是由15-20个不同蛋白质的部分组装而成。在另一个测试中,输出需要从40个已知蛋白质的部分拼接而成。

RNA结构预测能力

Evo的能力不仅限于蛋白质。当研究团队测试一种具有RNA抑制剂的毒素时,系统能够输出编码具有正确结构特征的RNA的DNA,即使特定序列与已知序列没有密切关联。

完全新型蛋白质的发现

CRISPR抑制剂的生成

研究团队对Evo的能力进行了更深入的测试,选择了CRISPR系统的抑制剂作为研究对象。CRISPR是基因编辑工具,但细菌进化出CRISPR系统作为对抗病毒的防御机制。自然存在的CRISPR抑制剂非常多样化,其中许多似乎彼此无关。

同样,研究团队过滤输出,只包含编码蛋白质的序列,并排除任何与已知蛋白质相似的蛋白质。在他们制造的蛋白质列表中,17%成功抑制了CRISPR功能。其中两个特别引人注目,因为它们与任何已知蛋白质都没有相似性,甚至能够混淆专门用于预测蛋白质三维结构的软件。

换句话说,除了预期的输出类型外,Evo似乎能够输出完全新型但功能正常的蛋白质,而且似乎完全没有考虑蛋白质的结构。

规模化应用潜力

鉴于Evo系统显示出良好的工作效果,研究团队决定将其应用于各种场景:使用细菌及其捕食病毒中的170万个独立基因作为提示。结果生成了1200亿个碱基对的AI生成DNA,其中包含一些已知的基因,也可能包含真正新颖的内容。

目前尚不清楚如何有效利用这一资源,但可以想象,一些富有创造力的生物学家会想出利用方法。

技术局限与未来展望

复杂基因组的挑战

这种方法是否适用于更复杂的基因组(如人类基因组)尚不明确。脊椎动物等生物体大多不聚集功能相关的基因,其基因结构也更为复杂,可能会试图学习碱基频率统计规则的系统造成混淆。

此外,需要明确的是,这种方法与已开发出具有消化塑料等有用功能的酶的定向设计方法解决的是不同问题。

生物学意义与创新价值

尽管如此,这种方法能够奏效本身就已经令人惊叹。从概念上讲,它引人入胜,因为它将寻找功能性蛋白质的问题带到了核苷酸层面——这正是进化通常发挥作用的地方。

这一突破不仅为蛋白质工程提供了新工具,还可能加速药物发现、酶设计和生物材料开发等领域的发展。随着AI技术与生物学的深度融合,我们可以期待更多革命性发现的出现。

结语:AI与生物学的深度融合

Evo基因组语言模型的开发代表了AI在生物学领域应用的又一重要里程碑。通过学习细菌基因组的组织规律,AI不仅能够预测和完成已知基因序列,更能生成具有全新功能的蛋白质,这一能力远超传统蛋白质设计方法。

随着技术的不断进步和应用的拓展,我们有理由相信,AI将在生物医学研究和生物技术发展中扮演越来越重要的角色,为解决人类面临的健康和环境挑战提供创新解决方案。这一领域的快速发展也将催生新的跨学科合作模式,推动科学研究的边界不断拓展。

AI蛋白质设计

蛋白质结构预测