AI突破:基于细菌基因组生成全新蛋白质

0

在生物技术领域,人工智能系统最近在蛋白质结构与功能关系的研究方面取得了显著进展。这些努力包括预测大多数蛋白质结构以及设计具有特定功能的蛋白质。然而,所有这些努力都集中在蛋白质本身及其构建的氨基酸上。

从DNA到蛋白质的全新视角

生物学并非在蛋白质层面生成新蛋白质,而是首先在核酸层面发生改变,最终通过蛋白质体现出来。DNA层面的信息与蛋白质之间存在相当大的距离,包含大量关键的非编码序列、冗余性和一定的灵活性。因此,学习基因组的组织方式是否能帮助AI系统理解如何制造功能性蛋白质,这一点并不明显。

然而,最新研究表明,使用细菌基因组进行训练可以帮助开发一种能够预测蛋白质的系统,其中一些蛋白质看起来像是我们从未见过的。这一突破由斯坦福大学的一个小型研究团队完成,他们利用细菌基因组中常见的一个特征:具有相关功能的基因聚类。

基因组语言模型Evo的诞生

细菌通常将给定功能所需的所有基因——如导入和消化糖类、合成氨基酸等——在基因组中紧密排列在一起。在许多情况下,所有基因都被转录成一条大型信使RNA。这为细菌提供了一种简单的方法,可以一次性控制整个生化通路的活性,提高细菌代谢效率。

基于这一特征,研究人员开发了一种他们称为"基因组语言模型"的系统,命名为Evo,使用大量细菌基因组进行训练。训练方式类似于大型语言模型,Evo被要求输出序列中下一个碱基的预测,并在预测正确时获得奖励。它也是一个生成式模型,可以接受提示并输出具有一定随机性的新序列,因为相同的提示可以产生一系列不同的输出。

研究人员认为,这种设置使Evo能够"将核苷酸水平的模式与千碱基规模的基因组背景联系起来"。换句话说,如果你给它提供一大块基因组DNA作为提示,Evo可以像LLM解释查询一样解释它,并产生在基因组意义上适合该解释的输出。

Evo的预测能力测试

为了测试该系统,研究人员使用已知蛋白质的基因片段作为提示,并确定Evo是否能完成它们。在一个例子中,如果给定已知蛋白质基因序列的30%,Evo能够输出其余85%的序列。当提示包含80%的序列时,它可以返回所有缺失的序列。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失的基因。

大量的训练数据确保Evo正确识别了蛋白质最重要的区域。如果它对序列进行修改,这些修改通常位于蛋白质中允许变异的区域。换句话说,它的训练使系统能够纳入已知基因变化进化的限制规则。

创造全新蛋白质的能力

研究人员决定测试当Evo被要求输出新内容时会发生什么。为此,他们使用了细菌毒素,这些毒素通常与一种抗毒素一起编码,以防止细胞在激活基因时自我毁灭。自然界中有很多这样的例子,它们通常作为细菌与竞争对手之间军备竞赛的一部分而迅速进化。

研究团队开发了一种与已知毒素只有微弱关联且没有已知抗毒素的毒素,并将其序列作为提示提供给Evo。这一次,他们过滤掉任何看起来与已知抗毒素基因相似的响应。

测试Evo返回的10个输出中,发现一半能够挽救某些毒性,其中两个完全恢复了产生毒素的细菌的生长能力。这两种抗毒素与已知抗毒素的序列相似度极低,约为25%。它们并不是简单地将少数已知抗毒素片段拼接在一起;至少,它们似乎是由15到20个不同蛋白质的部分组装而成的。在另一个测试中,输出需要由40个已知蛋白质的部分拼接而成。

Evo的成功不仅限于蛋白质。当他们测试具有RNA抑制剂的另一种毒素时,该系统能够输出编码具有正确结构特征的RNA的DNA,即使特定序列与任何已知物没有密切关联。

完全创新的蛋白质设计

研究团队对CRISPR系统的抑制剂进行了类似的测试,CRISPR是我们用于基因编辑的技术,但细菌将其进化为抵抗病毒的保护形式。自然存在的CRISPR抑制剂非常多样化,其中许多看起来彼此之间似乎没有关联。同样,团队过滤输出,只包含编码蛋白质的序列,并过滤掉任何看起来像我们已经了解的蛋白质。

在他们制造的蛋白质列表中,17%能够抑制CRISPR功能。其中两个与众不同,因为它们与任何已知蛋白质都没有相似性,并且使专门设计用于预测蛋白质三维结构的软件感到困惑。

换句话说,除了预期的输出类型外,Evo似乎能够输出完全新颖但功能正常的蛋白质。而且它似乎在做到这一点时完全没有考虑蛋白质的结构。

大规模蛋白质生成资源

鉴于他们的系统似乎有效,研究人员决定用几乎所有东西作为提示:来自细菌及其捕食病毒的170万个独立基因。结果是1200亿个碱基对的AI生成DNA,其中一些包含我们已经知道的基因,一些可能包含真正新颖的内容。目前尚不清楚任何人如何有效地利用这一资源,但我可以想象会有一些富有创造力的生物学家会想出一些用途。

技术局限与未来展望

目前尚不清楚这种方法是否适用于更复杂的基因组,比如我们人类的基因组。脊椎动物等生物体大多不将具有相关功能的基因聚类在一起,它们的基因结构更加复杂,可能会试图学习碱基频率统计规则的系统感到困惑。

此外,需要明确的是,它解决了与定向设计不同的问题,定向设计已经开发出执行有用任务(如消化塑料)的酶。

尽管如此,这种方法能够工作本身仍然令人惊叹。从概念上讲,它很有趣,因为它将寻找功能性蛋白质的问题降到了核酸层面,而进化通常在这一层面发挥作用。这一突破不仅为蛋白质工程开辟了新途径,也为理解进化机制提供了全新视角,可能彻底改变我们设计和发现蛋白质的方式。

蛋白质结构示意图

蛋白质结构示意图

结语

Evo基因组语言模型的代表了一个重要的里程碑,它展示了AI如何能够超越传统的蛋白质设计方法,直接从DNA序列层面创造功能性蛋白质。这一技术不仅为生物技术领域带来了新的可能性,也为理解生命的基本机制提供了新的工具。随着这一技术的进一步发展和完善,我们可以期待看到更多创新性的蛋白质设计应用,从药物开发到工业酶设计,再到环境修复,都将从中受益。