AI突破:基于细菌基因组训练生成全新蛋白质

0

引言:从蛋白质到基因组的AI探索

近年来,人工智能系统在生物学领域取得了显著成就,特别是在蛋白质结构与功能关系的研究方面。从预测大多数蛋白质的三维结构,到设计具有特定功能的蛋白质,AI技术已经展现出强大的能力。然而,这些努力大多集中在蛋白质及其构建氨基酸的层面上。

然而,生物学中蛋白质的产生并非直接发生在该层面。相反,变化必须首先在核酸层面发生,最终才通过蛋白质体现出来。DNA水平的信息与蛋白质之间存在相当大的距离,包含大量非编码序列、冗余性和一定程度的灵活性。因此,学习基因组的组织方式是否能帮助AI系统理解如何制造功能性蛋白质,这一点并不明确。

最新研究表明,利用细菌基因组进行训练可以帮助开发出能够预测蛋白质的系统,其中一些蛋白质看起来前所未见。这一突破为蛋白质设计和合成生物学开辟了新途径,同时也挑战了我们对蛋白质设计的基本认知。

基因组模型的训练:Evo的诞生

这项突破性工作由斯坦福大学的一个小型研究团队完成。他们的研究基于细菌基因组的一个常见特征:功能相关基因的聚集现象。通常,细菌会将执行特定功能所需的所有基因——如导入和消化糖类、合成氨基酸等——在基因组中紧密排列在一起。在许多情况下,所有基因会被转录成一条大型信使RNA。这为细菌提供了一种简单的方式来同时控制整个生化途径的活性,提高细菌代谢效率。

基于这一观察,研究人员开发了一种他们称为"基因组语言模型"的系统,命名为Evo。该系统使用了庞大的细菌基因组集合进行训练,训练方式类似于大型语言模型:Evo被要求预测序列中的下一个碱基,预测正确时会获得奖励。同时,Evo也是一个生成式模型,可以接受提示并输出具有一定随机性的新序列——相同的提示可以产生一系列不同的输出。

研究人员认为,这种设置使Evo能够"将核苷酸水平的模式与千碱基级基因组上下文联系起来"。换句话说,如果你给它提供一大段基因组DNA作为提示,Evo可以像LLM解释查询那样解释这段序列,并产生在基因组意义上适合该解释的输出。

测试与验证:从已知到未知

为了测试这一系统,研究人员使用已知蛋白质的基因片段作为提示,确定Evo是否能够完成这些序列。在一个例子中,如果给定已知蛋白质基因序列的30%,Evo能够输出剩余部分的85%。当提示包含80%的序列时,它可以返回所有缺失序列。当功能簇中的单个基因被删除时,Evo也能正确识别并恢复缺失的基因。

大量的训练数据确保了Evo正确识别了蛋白质最重要的区域。如果它对序列进行修改,这些修改通常位于蛋白质中允许变异的区域。换句话说,其训练使系统能够融入已知基因变化的进化规则限制。

全新蛋白质的生成

研究人员决定测试当Evo被要求输出新内容时会发生什么。他们使用了细菌毒素作为测试对象,这些毒素通常与抗毒素一起编码,以防止细胞在激活基因时自我毁灭。自然界中存在大量这样的例子,它们作为细菌与竞争对手之间军备竞赛的一部分快速进化。

研究团队开发了一种与已知毒素仅有微弱关联且没有已知抗毒素的毒素,并将其序列提供给Evo作为提示。这次,他们过滤掉了任何看起来与已知抗毒素基因相似的响应。

在测试Evo返回的10个输出中,发现其中一半能够挽救部分毒性,其中两个完全恢复了产生毒素的细菌的生长能力。这两种抗毒素与已知抗毒素的序列相似度极低,约为25%。它们并非简单地将少数已知抗毒素片段拼接而成;至少,它们似乎是由15到20个不同蛋白质的部分组装而成。在另一个测试中,输出需要由40个已知蛋白质的部分拼接而成。

Evo的成功不仅限于蛋白质。当他们测试具有RNA抑制剂的另一种毒素时,系统能够输出编码具有正确结构特征的RNA的DNA,即使特定序列与任何已知序列没有密切关联。

完全新颖的蛋白质:CRISPR抑制剂的案例

研究团队对CRISPR系统的抑制剂进行了类似测试,CRISPR是我们用于基因编辑的工具,但细菌将其进化为抵抗病毒的保护机制。自然存在的CRISPR抑制剂非常多样化,其中许多看起来彼此无关。同样,研究团队过滤了输出,只包含编码蛋白质的部分,并排除了任何看起来像已知蛋白质的蛋白质。

在他们制作蛋白质的输出列表中,17%成功抑制了CRISPR功能。其中两个与众不同之处在于,它们与任何已知蛋白质都没有相似性,甚至能迷惑专门用于预测蛋白质三维结构的软件。

换句话说,除了预期的输出类型外,Evo似乎能够输出完全新颖但功能性的蛋白质。而且,它似乎在不考虑蛋白质结构的情况下做到了这一点。

巨大潜力与应用前景

鉴于他们的系统似乎有效,研究人员决定用几乎所有东西作为提示:来自细菌及其捕食病毒的170万个独立基因。结果产生了1200亿个碱基对的AI生成DNA,其中一些包含我们已经知道的基因,一些可能包含真正新颖的内容。目前尚不清楚如何有效利用这一资源,但我相信会有一些富有创造力的生物学家想出一些应用方法。

值得注意的是,这种方法可能不适用于更复杂的基因组,如人类基因组。脊椎动物等生物体大多不聚集功能相关的基因,它们的基因结构更加复杂,可能会试图学习碱基频率统计规则的系统感到困惑。此外,需要明确的是,它解决了与已经开发出消化塑料等有用功能的酶的有向设计努力不同的问题。

尽管如此,这种方法能够工作本身就已经相当令人惊叹。从概念上讲,它引人入胜,因为它将寻找功能性蛋白质的问题降低到了核酸层面,这正是进化通常发挥作用的地方。

技术细节与科学意义

Evo模型的核心创新在于它从蛋白质结构预测转向了基因组层面的学习。传统的蛋白质设计方法通常需要考虑蛋白质的三维结构,而Evo则完全绕过了这一步骤,直接从基因组序列中学习功能模式。

这种方法的优势在于:

  1. 它利用了进化中已经验证的基因组组织原则
  2. 它能够发现人类研究者可能忽略的序列模式
  3. 它可以生成具有全新功能的蛋白质,而不受已知蛋白质结构的限制

从科学意义上讲,这一研究证明了AI可以从基因组层面理解生物学功能,而不仅仅是蛋白质结构。这为理解进化机制、开发新型生物材料和治疗药物提供了新工具。

未来展望与挑战

尽管这一成果令人兴奋,但仍有几个关键挑战需要解决:

  1. 复杂性限制:当前方法主要适用于细菌等简单基因组,如何扩展到真核生物基因组仍是一个挑战。

  2. 功能验证:虽然AI可以生成大量候选序列,但实验验证每个蛋白质的功能仍然耗时耗力。

  3. 安全性考虑:能够设计和生成新蛋白质的能力也带来了潜在的安全风险,需要建立相应的监管框架。

  4. 整合现有方法:如何将这种方法与现有的蛋白质设计和结构预测方法整合,形成更全面的蛋白质设计平台。

结论:AI驱动的蛋白质设计新纪元

斯坦福大学研究团队开发的Evo模型代表了AI在蛋白质设计领域的重大突破。通过直接从细菌基因组中学习,该系统能够生成具有全新功能的蛋白质,其中一些在自然界中从未见过。这一方法不仅挑战了传统蛋白质设计必须考虑三维结构的观念,也为合成生物学和药物开发开辟了新途径。

随着技术的不断发展和完善,我们有理由相信,AI将在未来蛋白质设计和生物技术创新中扮演越来越重要的角色。这一研究只是开始,未来我们将看到更多基于AI的蛋白质设计方法的出现,它们将从不同角度解决蛋白质设计的复杂问题,最终实现蛋白质设计的自动化和智能化。

蛋白质结构示意图

图:蛋白质结构的复杂三维表示,展示了AI系统可能设计的蛋白质类型