AI解码细菌基因组:创造全新蛋白质的突破性技术

0

在人工智能与生物学的交叉领域,一项革命性研究正在改变我们对蛋白质设计的认知。斯坦福大学团队开发的"基因组语言模型"Evo,通过学习细菌基因组的组织规律,成功预测并生成了多种前所未见的蛋白质。这一突破不仅展示了AI在理解生物信息学规则方面的惊人能力,更为蛋白质工程和药物开发开辟了全新路径。

从蛋白质到基因组的AI思维转变

近年来,AI系统在生物学领域取得了显著成就,特别是在蛋白质结构与功能关系方面。这些成就包括预测大多数蛋白质的结构以及设计具有特定功能的蛋白质。然而,所有这些努力都集中在蛋白质本身以及构成它们的氨基酸层面。

蛋白质结构示意图

生物学实际上并不在蛋白质层面生成新蛋白质。相反,变化必须首先在核酸层面发生,最终才通过蛋白质表现出来。DNA层面的信息与蛋白质之间存在相当大的距离,包含大量关键的非编码序列、冗余性和一定的灵活性。因此,学习基因组的组织方式是否有助于AI系统理解如何制造功能性蛋白质,这一点并不明显。

基因组语言模型Evo的诞生

这项新研究由斯坦福大学的一个小型团队完成,其理论基础是细菌基因组中的一个普遍特征:具有相关功能的基因倾向于聚集在一起。通常,细菌会将执行特定功能所需的所有基因——如导入和消化某种糖类、合成某种氨基酸等——在基因组中紧密排列。在许多情况下,所有基因被转录成一条单一的大型信使RNA,使细菌能够同时控制整个生化通路的活性,提高细菌代谢的效率。

基于这一特点,研究人员开发了一个名为"Evo"的"基因组语言模型",使用了大量细菌基因组进行训练。这种训练方式类似于大型语言模型,Evo被要求预测序列中的下一个碱基,预测正确时获得奖励。它也是一个生成式模型,可以接受提示并输出具有一定随机性的新序列,即相同的提示可以产生一系列不同的输出。

研究人员认为,这种设置使Evo能够"将核苷酸水平的模式与千碱基尺度的基因组背景联系起来"。换句话说,如果给它提供一大段基因组DNA作为提示,Evo可以像LLM解释查询那样理解它,并在基因组意义上产生适当的输出。

Evo模型的工作原理

Evo的训练过程基于细菌基因组的统计规律,特别是基因功能的聚类特性。通过分析数百万个细菌基因组,Evo学会了识别哪些基因序列组合可能共同执行某种生物功能。这种学习过程类似于人类语言模型理解单词和短语的上下文关系,但Evo学习的是"基因组语言"的语法规则。

研究人员推测,鉴于Evo在细菌基因组上的训练,他们可以使用已知基因作为提示,Evo应该输出包含具有相关功能的蛋白质编码区域的序列。关键问题是,它是否会简单地输出已知蛋白质的序列,还是会产生不太可预测的输出。

从已知到未知的蛋白质生成

为了测试系统,研究人员使用已知蛋白质基因片段作为提示,确定Evo是否能完成它们。在一个例子中,如果给出已知蛋白质基因序列的30%,Evo能够输出剩余部分的85%。当给出80%的序列时,它可以返回所有缺失序列。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失基因。

大量训练数据确保了Evo正确识别蛋白质最重要的区域。如果它对序列进行修改,这些修改通常位于蛋白质中允许变异的区域。换句话说,其训练使系统能够纳入已知基因变化的进化限制规则。

毒素-抗毒素系统的创新应用

研究人员决定测试当Evo被要求输出新内容时会发生什么。为此,他们使用了细菌毒素,这些毒素通常与抗毒素一起编码,防止细菌在激活基因时自杀。自然界中有很多这样的例子,它们作为细菌与竞争对手军备竞赛的一部分迅速进化。

蛋白质折叠过程

团队开发了一种与已知毒素只有微弱关联且无已知抗毒素的毒素,并将其序列提供给Evo作为提示。这次,他们过滤掉了任何与已知抗毒素基因相似的响应。

测试Evo返回的10个输出中,一半能够挽救某些毒性,其中两个完全恢复了产生毒素的细菌的生长。这两个抗毒素与已知抗毒素的序列相似性极低,仅约25%的序列同一性。它们并非简单地将少量已知抗毒素片段拼接而成;至少,它们似乎是由15到20个不同蛋白质的片段组装而成。在另一个测试中,输出需要由40个已知蛋白质的片段拼接而成。

RNA抑制剂的生成能力

Evo的成功不仅限于蛋白质。当他们测试一种具有RNA抑制剂的毒素时,该系统能够输出编码具有正确结构特征的RNA的DNA,即使特定序列与已知序列没有密切关系。

CRISPR抑制剂的突破性发现

团队对CRISPR系统的抑制剂进行了类似测试,CRISPR是我们用于基因编辑的技术,但细菌进化出这种系统作为对抗病毒的保护机制。天然存在的CRISPR抑制剂非常多样化,其中许多彼此之间似乎没有关联。再次,团队过滤输出,只包含那些编码蛋白质的输出,并排除了任何看起来像我们已经了解的蛋白质。

在他们制作蛋白质的输出列表中,17%成功抑制了CRISPR功能。其中两个与众不同,因为它们与任何已知蛋白质都没有相似性,并且使设计用于预测蛋白质三维结构的软件感到困惑。

换句话说,除了预期的输出类型外,Evo似乎能够输出完全全新但功能正常的蛋白质。而且它似乎做到这一点时完全没有考虑蛋白质的结构。

大规模基因组探索

鉴于他们的系统似乎有效,研究人员决定用几乎所有东西作为提示:来自细菌及其捕食病毒的170万个独立基因。结果是1200亿个碱基对的AI生成DNA,其中一些包含我们已经知道的基因,一些可能包含真正新颖的内容。目前尚不清楚任何人如何有效利用这一资源,但我相信会有一些富有创造力的生物学家会想到办法。

技术局限与未来展望

目前尚不清楚这种方法是否适用于更复杂的基因组,比如我们人类的基因组。脊椎动物等生物体大多不将具有相关功能的基因聚集在一起,它们的基因结构更加复杂,可能会试图学习碱基频率统计规则的系统感到困惑。而且,需要明确的是,它解决了与已开发出有用功能(如消化塑料)的酶的直接设计努力不同的问题。

尽管如此,这种方法能够奏效本身就已经相当令人惊叹。从概念上讲,它很有趣,因为它将寻找功能性蛋白质的问题带到了核酸层面,而进化通常在这一层面发挥作用。

对生物医学研究的深远影响

这项技术的潜在应用前景广阔。在药物开发领域,Evo可以生成具有特定生物活性的全新蛋白质,为治疗疾病提供新的候选分子。在酶工程方面,它可以设计出能够降解环境污染物或工业废物的特殊酶。在合成生物学中,Evo可以帮助构建复杂的生物系统,用于生产生物燃料或生物材料。

此外,这种AI驱动的蛋白质设计方法可能加速我们对蛋白质功能的理解。通过生成大量具有不同序列但功能相似的蛋白质,研究人员可以研究蛋白质序列与其功能之间的关系,从而揭示进化和蛋白质设计的基本原理。

结论

Evo基因组语言模型的开发代表了AI与生物学交叉领域的重要突破。它不仅展示了AI系统学习生物信息学规则的惊人能力,还提供了一种全新的蛋白质设计方法。这种方法不依赖于蛋白质结构的预先知识,而是直接从基因组语言中学习,从而创造出自然界中可能不存在但具有功能性的蛋白质。

随着技术的进一步发展和完善,我们可以期待看到更多基于AI的蛋白质设计应用,这些应用将在药物开发、酶工程、合成生物学等领域产生深远影响。这项研究不仅拓展了我们对AI能力的认知,也为解决生物学和医学中的复杂问题提供了新的思路和工具。