AI突破:基于细菌基因组生成全新蛋白质的革命性探索

0

在人工智能与生物学交叉领域,一项突破性研究正在改变我们创造和发现蛋白质的方式。斯坦福大学研究团队开发的"基因组语言模型"Evo,通过学习细菌基因组的组织规律,成功生成了多种前所未见的功能性蛋白质。这一发现不仅拓展了AI在生物科学中的应用边界,也为蛋白质设计和合成生物学开辟了全新可能性。

从蛋白质到基因组:AI视角的转变

传统AI系统在生物学领域的应用主要集中在蛋白质结构预测和功能设计上。这些系统已经能够预测大多数蛋白质的三维结构,并设计出执行特定功能的蛋白质,例如能够分解塑料的酶。然而,这些方法都集中在蛋白质及其构建的氨基酸层面。

然而,生物学实际上并非在蛋白质层面生成新蛋白质。变化首先发生在核酸酸层面,最终才通过蛋白质表现出来。DNA层面的信息与蛋白质之间存在相当大的距离,包含大量非编码序列、冗余结构和相当的灵活性。因此,学习基因组的组织方式是否有助于AI系统理解如何制造功能性蛋白质,这一点并不明显。

斯坦福大学的研究团队发现,利用细菌基因组进行训练确实可以帮助开发出能够预测蛋白质的系统,其中一些蛋白质看起来像是我们从未见过的东西。这一发现标志着AI在生物设计领域的重要转变——从关注蛋白质本身转向关注基因组层面的信息处理。

基因组语言模型:Evo的诞生

细菌基因组的特殊性质

细菌基因组的一个显著特点是功能相关基因的聚类现象。通常,细菌会将给定功能所需的所有基因——例如导入和消化特定糖类、合成氨基酸等——在基因组中紧密排列在一起。在许多情况下,所有基因被转录成一条单一的大型信使RNA(mRNA)。这种结构使细菌能够一次性控制整个生化通路的活性,提高细菌代谢效率。

这种基因聚类现象为AI学习基因组组织规律提供了理想的数据基础。研究团队利用这一特性,开发了一种被称为"基因组语言模型"的系统,命名为Evo。

训练方法与原理

Evo的训练方式类似于大型语言模型(LLM),使用大量细菌基因组数据。系统被要求预测序列中的下一个碱基,预测正确时获得奖励。Evo也是一个生成式模型,可以接受提示并输出具有一定程度随机性的新序列,同一提示可以产生多种不同的输出。

研究人员认为,这种设置使Evo能够"将核苷酸水平的模式与千碱基尺度的基因组上下文联系起来"。换句话说,如果给它提供一大段基因组DNA作为提示,Evo能够像LLM解释查询一样解释这段DNA,并在基因组意义上产生适当的输出。

基于在细菌基因组上的训练,研究人员可以使用已知基因作为提示,Evo应该产生包含编码具有相关功能蛋白质区域的输出。关键问题是,系统是否会简单输出已知蛋白质的序列,还是会产生更不可预测的输出。

实验证实:Evo的蛋白质生成能力

完成已知基因序列

为了测试系统,研究人员使用已知蛋白质基因片段作为提示,确定Evo是否能够完成这些序列。在一个例子中,如果给出已知蛋白质基因序列的30%,Evo能够输出剩余85%的序列。当提示包含80%的序列时,它可以返回所有缺失序列。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失基因。

大量训练数据确保Evo正确识别了蛋白质最重要的区域。如果它对序列进行修改,这些修改通常位于蛋白质中允许变异的区域。换句话说,其训练使系统能够融入已知基因变化的进化规则限制。

生成全新蛋白质

研究人员决定测试当Evo被要求输出新内容时会发生什么。他们使用细菌毒素作为测试对象,这些毒素通常与抗毒素一起编码,防止细胞在激活基因时自我毁灭。自然界中存在大量此类例子,它们作为细菌与竞争对手之间军备竞赛的一部分迅速进化。

研究团队开发了一种与已知毒素仅有微弱关联且无已知抗毒素的毒素,并将其序列提供给Evo作为提示。这次,他们过滤掉任何与已知抗毒素基因相似的响应。

在测试Evo返回的10个输出中,发现其中一半能够挽救一定的毒性,其中两个完全恢复了产生毒素的细菌的生长能力。这两种抗毒素与已知抗毒素的序列相似度极低,约为25%。它们不是简单地将少量已知抗毒素片段拼接而成;至少,它们似乎是由15-20个不同蛋白质的部分组装而成。在另一项测试中,输出需要由40个已知蛋白质的部分拼接而成。

RNA结构预测能力

Evo的成功不仅限于蛋白质。当他们测试具有RNA抑制剂的另一种毒素时,系统能够输出编码具有正确结构特征的RNA的DNA,即使特定序列与已知序列没有密切关系。

CRISPR抑制剂的突破性发现

研究团队对CRISPR系统抑制剂进行了类似测试,CRISPR是我们用于基因编辑的技术,但细菌进化出这种系统作为对抗病毒的保护机制。天然存在的CRISPR抑制剂非常多样,其中许多似乎彼此无关。同样,团队过滤输出,只包含编码蛋白质的部分,并排除任何看起来像我们已经了解的蛋白质。

在他们制作蛋白质的输出列表中,17%成功抑制了CRISPR功能。其中有两个与众不同之处:它们与任何已知蛋白质都没有相似性,并且能够混淆专门用于预测蛋白质三维结构的软件。

换句话说,除了预期类型的输出外,Evo似乎能够输出完全新颖但功能正常的蛋白质。而且它似乎在这样做时完全没有考虑蛋白质的结构。

大规模基因生成与应用前景

鉴于他们的系统似乎有效,研究人员决定用几乎所有东西作为提示:来自细菌及其捕食病毒的170万个独立基因。结果是1200亿个碱基对的AI生成DNA,其中一些包含我们已经知道的基因,一些可能包含真正新颖的内容。

这一大规模基因生成资源为生物技术领域提供了前所未有的可能性。虽然目前尚不清楚如何有效利用这一资源,但可以想象,一些富有创造力的生物学家会想出应用方法。

技术局限与未来发展方向

研究人员指出,这种方法可能不适用于更复杂的基因组,如人类基因组。脊椎动物等生物体通常不将功能相关的基因聚类在一起,其基因结构更加复杂,可能会试图学习碱基频率统计规则的系统造成混淆。

此外,需要明确的是,这种方法与我们已开发的执行有用功能(如消化塑料)的定向设计酶解决的是不同类型的问题。

尽管如此,这种方法能够奏效本身就已经相当令人惊叹。从概念上讲,它很有趣,因为它将寻找功能性蛋白质的问题降到了核酸层面,这正是进化通常发挥作用的地方。

科学意义与行业影响

这项研究的最重要意义在于,它证明了AI可以直接在基因组层面创造功能性蛋白质,而不需要预先了解蛋白质的结构或功能。这为蛋白质设计提供了全新的范式,可能加速新药开发、工业酶设计和生物材料创新。

从长远来看,这种方法可能会改变我们探索蛋白质空间的方式。传统上,蛋白质发现依赖于对自然界的观察或对已知蛋白质的定向修改。而Evo这样的系统可以系统地探索可能的功能蛋白质空间,包括那些在自然界中不存在但可能具有有用功能的蛋白质。

此外,这种方法也为我们理解蛋白质进化提供了新视角。通过观察AI如何从基因组数据中学习蛋白质功能规则,我们可能更好地理解自然选择如何在分子层面塑造蛋白质功能。

结论:AI驱动的蛋白质设计新纪元

斯坦福大学研究团队开发的Evo模型代表了AI在生物设计领域的重要突破。通过学习细菌基因组的组织规律,该系统能够生成多种前所未见的功能性蛋白质,包括那些与已知蛋白质结构完全不同的新型蛋白质。

这一发现不仅拓展了我们对蛋白质设计可能性的认知,也为生物技术领域开辟了全新研究方向。随着AI技术的不断发展,我们可以期待看到更多基于基因组语言模型的蛋白质设计系统出现,它们可能会彻底改变药物发现、工业生物技术和合成生物学的发展轨迹。

在未来,这种AI驱动的蛋白质设计方法可能会与传统的结构生物学方法相结合,形成更全面的蛋白质设计策略。同时,随着计算能力的提升和算法的改进,这些系统可能会扩展到更复杂的基因组,包括植物和动物基因组,从而解锁更广泛的生物设计可能性。

蛋白质结构模型

蛋白质三维结构

这项研究只是开始,AI与生物学的交叉融合将继续产生令人兴奋的突破,为解决人类面临的健康、环境和能源挑战提供创新解决方案。随着这些技术的成熟,我们可能会见证一个由AI辅助设计和发现的蛋白质革命性改变世界的新时代。