大核酸模型:AI基于细菌基因组生成前所未见蛋白质

0

在人工智能与生物学的交叉领域,一项突破性研究正在改变我们理解和设计蛋白质的方式。斯坦福大学的研究团队开发了一种名为"Evo"的基因组语言模型,通过学习细菌基因组的组织方式,成功生成了具有全新功能的蛋白质。这一发现不仅拓展了AI在生物领域的应用边界,更为蛋白质设计和药物开发开辟了全新途径。

从蛋白质到基因组:AI视角的转变

近年来,人工智能系统在生物学领域取得了显著成就,特别是在蛋白质结构与功能关系方面。这些努力包括预测大多数蛋白质的结构以及设计具有特定功能的蛋白质。然而,所有这些努力都集中在蛋白质及其构建单元氨基酸层面。

但生物学并非在蛋白质层面生成新蛋白质。相反,变化必须首先发生在核酸层面,最终才通过蛋白质体现出来。DNA层面的信息与蛋白质之间存在相当大的距离,包含大量关键的非编码序列、冗余性和相当程度的灵活性。因此,学习基因组的组织方式是否能帮助AI系统理解如何制造功能性蛋白质,这一点并不明显。

训练基因组模型:Evo的诞生

斯坦福大学研究团队开发了一种被称为"基因组语言模型"的系统,命名为Evo。该模型利用了细菌基因组中的一个常见特征:功能相关基因的聚集现象。通常,细菌会将执行特定功能所需的所有基因——如导入和消化糖类、合成氨基酸等——在基因组中紧密排列在一起。在许多情况下,所有基因被转录成单个大型信使RNA,使细菌能够一次性控制整个生化通路的活性,提高细菌代谢效率。

研究人员使用大量细菌基因组对Evo进行了训练,训练方式类似于大型语言模型。Evo被要求预测序列中的下一个碱基,预测正确时获得奖励。它也是一个生成式模型,可以接收提示并输出具有一定随机性的新序列,即相同的提示可以产生一系列不同的输出。

研究人员认为,这种设置使Evo能够"将核苷酸水平的模式与千碱基尺度的基因组上下文联系起来"。换句话说,如果给它提供一大段基因组DNA作为提示,Evo可以像LLM解释查询一样理解它,并在基因组意义上生成适当的输出。

新颖蛋白质的生成

为了测试系统,研究人员使用已知蛋白质的基因片段作为提示,确定Evo是否能够完成它们。在一个例子中,如果给定已知蛋白质基因序列的30%,Evo能够输出剩余85%的序列。当提示80%的序列时,它可以返回所有缺失序列。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失的基因。

大量训练数据确保了Evo正确识别了蛋白质最重要的区域。如果它对序列进行修改,这些修改通常位于蛋白质中允许变异的区域。换句话说,其训练使系统能够融入已知基因变化的进化规则限制。

研究人员决定测试当Evo被要求输出新内容时会发生什么。为此,他们使用了细菌毒素,这些毒素通常与抗毒素一起编码,防止细胞在激活基因时自我毁灭。自然界中有很多这样的例子,它们作为细菌与竞争对手之间军备竞赛的一部分迅速进化。

完全新颖的蛋白质

研究团队对CRISPR系统的抑制剂进行了类似测试,CRISPR是我们用于基因编辑的技术,但细菌进化出它作为对抗病毒的保护机制。天然存在的CRISPR抑制剂非常多样化,其中许多似乎彼此无关。同样,团队筛选了输出结果,只包含编码蛋白质的序列,并排除了任何看起来已知的蛋白质。

在他们制作蛋白质的输出列表中,17%成功抑制了CRISPR功能。其中两个与众不同,因为它们与任何已知蛋白质都没有相似性,并且使设计用于预测蛋白质三维结构的软件感到困惑。

换句话说,除了预期的输出类型外,Evo似乎能够输出完全新颖但功能正常的蛋白质,而且似乎完全没有考虑蛋白质的结构。

规模化应用与未来展望

鉴于他们的系统似乎有效,研究人员决定用几乎所有东西来提示它:来自细菌及其捕食病毒的170万个独立基因。结果产生了1200亿个碱基对的AI生成DNA,其中一些包含已知的基因,一些 presumably 包含真正新颖的内容。

然而,这种方法是否适用于更复杂的基因组(如人类基因组)尚不清楚。脊椎动物等生物体大多不聚集功能相关的基因,它们的基因结构更加复杂,可能会试图学习碱基频率统计规则的系统感到困惑。

尽管如此,这种方法能够奏效本身就已经相当令人惊叹。从概念上讲,它很有趣,因为它将寻找功能性蛋白质的问题带到了核酸层面,这正是进化通常发挥作用的地方。

这项研究代表了人工智能与生物学融合的重要进展,不仅展示了AI在理解复杂生物系统方面的潜力,还为蛋白质设计和药物开发提供了全新思路。随着技术的进一步发展,我们可能会看到更多基于AI的蛋白质设计应用,为解决人类面临的健康和环境挑战提供创新解决方案。

蛋白质结构示意图

蛋白质结构示意图