AI突破：基于细菌基因组训练的模型创造全新蛋白质

从核苷酸到蛋白质：AI的新突破

人工智能系统在生物学领域最近取得了重大突破，特别是在蛋白质结构与功能关系的研究方面。这些努力包括预测大多数蛋白质结构以及设计具有特定功能的蛋白质。然而，所有这些工作都集中在蛋白质及其构建氨基酸的层面。

但实际上，生物学并不是在蛋白质层面生成新蛋白质的。相反，变化必须首先发生在核苷酸层面，然后才通过蛋白质表现出来。DNA层面的信息与蛋白质之间存在相当大的距离，包含大量关键的非编码序列、冗余性和一定的灵活性。因此，学习基因组的组织方式是否能帮助AI系统理解如何制造功能性蛋白质，这一点并不明显。

然而，最新研究表明，使用细菌基因组进行训练可以帮助开发一个能够预测蛋白质的系统，其中一些蛋白质看起来像是我们从未见过的。

基因组模型的训练方法

这项新研究由斯坦福大学的一个小型团队完成。它依赖于细菌基因组中一个常见特征：具有相关功能的基因聚类。通常，细菌会将给定功能所需的所有基因——如导入和消化糖类、合成氨基酸等——在基因组中紧密排列在一起。在许多情况下，所有基因都被转录成一个单一的、大型信使RNA。这为细菌提供了一种简单的方法，可以同时控制整个生化途径的活动，提高细菌代谢的效率。

蛋白质结构示意图

研究人员利用庞大的细菌基因组集合，开发了一种他们称为"基因组语言模型"的系统，命名为Evo。训练方式类似于大型语言模型，Evo被要求输出序列中下一个碱基的预测，预测正确时获得奖励。它也是一个生成式模型，可以接受提示并输出具有一定随机性的新序列，因为同一个提示可以产生一系列不同的输出。

研究人员认为，这种设置使Evo能够"将核苷酸水平的模式与千碱基规模的基因组背景联系起来"。换句话说，如果你给它提供一大块基因组DNA作为提示，Evo可以像LLM解释查询一样解释它，并产生在基因组意义上适合该解释的输出。

研究人员推测，鉴于在细菌基因组上的训练，他们可以使用已知基因作为提示，Evo应该会产生包含编码具有相关功能的蛋白质区域的输出。关键问题是，它是否会简单地输出我们已知蛋白质的序列，或者产生不太可预测的输出。

全新蛋白质的生成

为了开始测试该系统，研究人员用已知蛋白质基因片段作为提示，确定Evo是否能够完成它们。在一个例子中，如果给定一个已知蛋白质基因序列的30%，Evo能够输出其余85%的序列。当用序列的80%作为提示时，它可以返回所有缺失的序列。当从功能簇中删除单个基因时，Evo也能正确识别并恢复缺失的基因。

大量的训练数据确保Evo正确识别了蛋白质最重要的区域。如果它对序列进行修改，这些修改通常位于蛋白质中允许变异的区域。换句话说，其训练使系统能够整合已知基因变化的进化限制规则。

因此，研究人员决定测试当Evo被要求输出新内容时会发生什么。为此，他们使用了细菌毒素，这些毒素通常与抗毒素一起编码，以防止细胞在激活基因时自我毁灭。自然界中有很多这样的例子，它们作为细菌与竞争对手之间军备竞赛的一部分迅速进化。因此，研究团队开发了一种与已知毒素仅有微弱相关性且没有已知抗毒素的毒素，并将其序列作为提示提供给Evo。这一次，他们过滤掉了任何看起来像已知抗毒素基因的响应。

在测试Evo返回的10个输出中，发现其中一半能够挽救部分毒性，其中两个完全恢复了产生毒素的细菌的生长。这两种抗毒素与已知的抗毒素仅有极其微弱的相似性，序列一致性约为25%。它们不是简单地通过粘贴少量已知抗毒素片段形成的；至少，它们似乎是由15到20个单独蛋白质的部分组装而成。在另一个测试中，输出需要由40个已知蛋白质的部分拼接而成。

Evo的成功不仅限于蛋白质。当他们测试具有RNA抑制剂的另一种毒素时，该系统能够输出编码具有正确结构特征的RNA的DNA，即使特定序列与任何已知物没有密切关系。

全新蛋白质的创造

研究团队对CRISPR系统的抑制剂进行了类似的测试，CRISPR是我们用于基因编辑的技术，但细菌进化出这种机制作为对抗病毒的保护手段。自然存在的CRISPR抑制剂非常多样化，其中许多似乎彼此无关。同样，研究团队过滤输出，只包含编码蛋白质的输出，并过滤掉任何看起来像我们已经了解的蛋白质。在他们制作蛋白质的输出列表中，17%成功抑制了CRISPR功能。其中两个与众不同，因为它们与任何已知蛋白质都没有相似性，并且让旨在预测蛋白质三维结构的软件感到困惑。

换句话说，除了预期的输出类型外，Evo似乎能够输出完全全新但功能性的蛋白质。而且它似乎这样做时完全没有考虑蛋白质的结构。

鉴于他们的系统似乎有效，研究人员决定用几乎所有东西作为提示：来自细菌及其捕食病毒的170万个单独基因。结果产生了1200亿个碱基对的AI生成DNA，其中一些包含我们已经知道的基因，一些可能包含真正新颖的内容。目前尚不清楚任何人如何有效利用这一资源，但我相信会有一些富有创造力的生物学家会想出一些办法。

挑战与前景

目前尚不清楚这种方法是否适用于更复杂的基因组，比如我们人类拥有的基因组。像脊椎动物这样的生物体大多不聚类具有相关功能的基因，它们的基因结构更加复杂，可能会试图学习碱基频率统计规则的系统感到困惑。而且，需要明确的是，它解决了与已开发出有用功能酶（如消化塑料）的有向设计工作不同的问题。

尽管如此，这种方法能够工作本身仍然令人惊叹。从概念上讲，它很有趣，因为它将寻找功能性蛋白质的问题带到了核苷酸层面，这正是进化通常发挥作用的地方。

这项研究代表了人工智能与生物学交叉领域的重大突破，展示了AI系统不仅能够理解现有的生物信息，还能够创造出自然界中可能不存在的功能性分子。随着技术的进一步发展，这种方法可能会加速药物发现、酶设计和生物材料开发等多个领域的创新。

未来，研究人员可能会探索这种方法是否可以扩展到更复杂的生物体基因组，或者如何将AI生成的蛋白质与现有的蛋白质设计技术相结合。此外，随着计算能力的提升和训练数据的增加，我们可能会看到更加复杂和功能多样的AI生成蛋白质的出现。

这项工作也引发了关于人工智能在科学发现中作用的更深层次问题。如果AI能够创造出人类科学家可能需要数十年才能发现或设计的分子，那么科学研究的本质可能会发生根本性变化。这既带来了巨大的机遇，也带来了需要仔细考虑的伦理问题。

结论

斯坦福大学开发的Evo基因组语言模型代表了一种创新的方法，它直接从核苷酸层面理解基因组组织方式，而不需要考虑蛋白质结构。通过学习细菌基因组中基因功能的聚类特征，Evo能够预测并生成具有全新功能的蛋白质，包括与任何已知蛋白质均无相似性的分子。

这一突破为蛋白质设计和合成生物学开辟了全新途径，有望加速药物研发、酶设计和生物技术应用。虽然目前这种方法主要适用于细菌等简单生物体，但随着技术的进步，它可能会扩展到更复杂的基因组，为解决人类面临的各种生物学和医学挑战提供新的工具和思路。

人工智能与生物学的交叉融合正在以前所未有的速度发展，Evo模型的成功只是这一激动人心领域的开始。随着更多研究团队加入这一领域，我们可以期待看到更多令人惊讶的发现和创新应用的出现。