AI突破：基于细菌基因组训练的AI创造前所未见蛋白质

在生物学领域，AI系统最近在蛋白质结构与功能关系这一关键方面取得了显著成就。这些努力包括预测大多数蛋白质结构以及设计具有特定功能的蛋白质。然而，所有这些努力都集中在蛋白质及其构建的氨基酸上。

但生物学并非在蛋白质层面生成新蛋白质。相反，变化必须先发生在核酸层面，然后才通过蛋白质显现出来。DNA层面的信息与蛋白质之间存在相当大的距离，包含大量非编码序列、冗余性和一定的灵活性。因此，学习基因组的组织是否能帮助AI系统理解如何制造功能性蛋白质，这一点并不明显。

但现在看来，使用细菌基因组进行训练可以帮助开发一种能够预测蛋白质的系统，其中一些蛋白质看起来前所未见。

基因组模型训练

这项新工作由斯坦福大学的一个小型团队完成。它依赖于细菌基因组中常见的一个特征：功能相关基因的聚集。通常，细菌会将给定功能所需的所有基因——如导入和消化糖类、合成氨基酸等——排列在基因组的相邻位置。在许多情况下，所有基因都被转录成一条大型信使RNA。这为细菌提供了一种简单的方式来同时控制整个生化途径的活动，提高了细菌代谢的效率。

因此，研究人员使用大量细菌基因组开发了一种他们称为"基因组语言模型"的系统，命名为Evo。训练方式类似于大型语言模型，Evo被要求输出序列中下一个碱基的预测，并在预测正确时获得奖励。它也是一个生成式模型，可以接收提示并输出具有一定程度随机性的新序列，因为相同的提示可以产生一系列不同的输出。

研究人员认为，这种设置使Evo能够"将核苷酸水平的模式与千碱基尺度的基因组上下文联系起来"。换句话说，如果你给它提供一大块基因组DNA作为提示，Evo可以像LLM解释查询一样解释它，并产生在基因组意义上适合该解释的输出。

研究人员推测，鉴于在细菌基因组上的训练，他们可以使用已知基因作为提示，Evo应该产生包含编码具有相关功能蛋白质区域的输出。关键问题是，它是否会简单地输出已知蛋白质的序列，或者是否能产生不太可预测的输出。

新型蛋白质

为了开始测试该系统，研究人员使用已知蛋白质的基因片段作为提示，并确定Evo是否能完成它们。在一个例子中，如果给定已知蛋白质基因序列的30%，Evo能够输出剩余部分的85%。当提示包含80%的序列时，它可以返回所有缺失序列。当功能簇中的单个基因被删除时，Evo也能正确识别并恢复缺失的基因。

大量的训练数据确保Evo正确识别了蛋白质最重要的区域。如果它对序列进行修改，这些修改通常位于蛋白质中允许变异的区域。换句话说，其训练使系统能够纳入已知基因变化进化限制的规则。

因此，研究人员决定测试当Evo被要求输出新内容时会发生什么。为此，他们使用了细菌毒素，这些毒素通常与抗毒素一起编码，以防止细胞在激活基因时自杀。自然界中有很多这样的例子，它们作为细菌与竞争对手之间军备竞赛的一部分迅速进化。因此，团队开发了一种与已知毒素只有微弱关联且没有已知抗毒素的毒素，并将其序列作为提示提供给Evo。这一次，他们过滤掉任何看起来与已知抗毒素基因相似的响应。

测试Evo返回的10个输出，他们发现一半能够挽救一些毒性，其中两个完全恢复了产生毒素的细菌的生长。这两种抗毒素与已知抗毒素的序列相似性极低，仅约25%的序列一致性。它们不是简单地将少量已知抗毒素片段拼接在一起；至少，它们似乎是由15到20个不同蛋白质的部分组装而成。在另一项测试中，输出需要由40个已知蛋白质的部分拼接而成。

Evo的成功不仅限于蛋白质。当他们测试具有RNA抑制剂的另一种毒素时，该系统能够输出编码具有正确结构特征的RNA的DNA，即使特定序列与已知内容没有密切关联。

全新蛋白质

团队对CRISPR系统的抑制剂进行了类似的测试，CRISPR是我们用于基因编辑的系统，但细菌进化出它作为对抗病毒的保护机制。天然存在的CRISPR抑制剂非常多样化，其中许多似乎彼此无关。同样，团队过滤输出，只包含编码蛋白质的，并过滤掉任何看起来像我们已经知道的蛋白质。在他们制造蛋白质的输出列表中，17%成功抑制了CRISPR功能。其中两个与众不同之处在于它们与任何已知蛋白质都没有相似性，并且使旨在预测蛋白质三维结构的软件感到困惑。

换句话说，除了预期的输出类型外，Evo似乎能够输出完全全新但功能性的蛋白质。而且它似乎这样做时完全没有考虑蛋白质的结构。

鉴于他们的系统似乎有效，研究人员决定用几乎所有东西提示它：来自细菌及其捕食病毒的170万个独立基因。结果是1200亿个碱基对的AI生成DNA，其中一些包含我们已经知道的基因，一些可能包含真正新颖的内容。我不清楚任何人如何有效地利用这一资源，但我可以想象会有一些富有创造力的生物学家会想出一些办法。

目前尚不清楚这种方法是否适用于更复杂的基因组，比如我们人类拥有的基因组。脊椎动物等生物体大多不聚集功能相关的基因，它们的基因结构更加复杂，可能会试图学习碱基频率统计规则的系统感到困惑。而且，需要明确的是，它解决了与开发具有消化塑料等有用功能的酶的定向设计努力不同的问题。

尽管如此，这种方法能够工作本身就已经很神奇了。从概念上讲，它很有趣，因为它将寻找功能性蛋白质的问题带到了核酸层面，进化通常在这一层面发挥作用。

技术原理与突破

Evo模型的核心创新在于它不是直接学习蛋白质序列，而是学习整个基因组的组织方式。细菌基因组中功能相关基因聚集的特性为AI提供了重要的上下文信息。通过学习这种组织模式，Evo能够理解基因簇中不同基因之间的功能关系，从而在给定一个基因作为提示时，预测出与其功能相关的其他基因序列。

这种方法的独特之处在于它绕过了传统的蛋白质结构预测步骤。传统方法通常需要先了解蛋白质的三维结构，然后才能推断其功能。而Evo直接从基因组层面出发，利用进化过程中形成的基因组织规律，生成可能具有特定功能的蛋白质序列。

研究人员通过一系列实验验证了Evo的能力。在毒素-抗毒素系统的测试中，Evo不仅能够恢复缺失的抗毒素基因，还能创造出与已知抗毒素序列相似度极低的新抗毒素。这些新抗毒素由多个不同蛋白质的部分组装而成，表明Evo能够重新组合现有的蛋白质模块，创造出全新的功能性蛋白质。

在CRISPR抑制剂的测试中，Evo生成的蛋白质中有17%能够抑制CRISPR功能，其中一些与任何已知蛋白质都没有相似性。这一结果特别引人注目，因为它表明Evo能够创造出超越现有生物学知识范围的全新蛋白质。

应用前景与挑战

Evo模型的开发为生物技术领域带来了新的可能性。首先，它可以加速新抗生素的发现，通过设计针对特定病原体的新型毒素抑制剂。其次，它可以用于开发新型酶，这些酶能够催化化学反应，包括分解塑料等环境污染物。此外，Evo还可以用于设计蛋白质药物，这些药物能够更精确地靶向疾病相关的蛋白质。

然而，这一技术也面临一些挑战。首先，目前Evo主要针对细菌基因组进行了优化，其方法可能不适用于更复杂的真核生物基因组。其次，虽然Evo能够生成功能性蛋白质，但这些蛋白质的具体功能和安全性仍需要通过实验验证。最后，如何有效地筛选和测试大量AI生成的蛋白质序列也是一个重大挑战。

未来发展方向

未来的研究可能会集中在几个方向。首先，扩展Evo模型以适应更复杂的基因组，如人类基因组。这可能需要开发新的算法来处理真核生物中基因的分散性和复杂的调控机制。其次，将Evo与其他AI系统结合，如蛋白质结构预测工具，以进一步提高生成蛋白质的功能性和稳定性。第三，开发高通量实验方法，用于快速筛选和验证AI生成的蛋白质。

此外，伦理问题也需要考虑。AI生成蛋白质的能力可能会被用于生物武器开发或其他有害目的。因此，建立适当的监管框架和安全措施至关重要。

结论

斯坦福大学开发的Evo模型代表了AI在生物设计领域的重大突破。通过学习细菌基因组的组织方式，Evo能够生成具有全新功能的蛋白质，这些蛋白质与已知蛋白质几乎没有相似性。这一发现不仅加深了我们对基因组组织和蛋白质进化的理解，也为生物技术和药物开发开辟了新途径。

虽然这一技术仍面临挑战，但其潜力不可忽视。随着AI技术的不断进步，我们可以期待看到更多基于AI的蛋白质设计系统，这些系统将能够解决人类面临的一些最紧迫的生物学和医学挑战。Evo的成功证明了AI在理解复杂生物系统方面的能力，并为未来生物技术的发展指明了方向。

蛋白质结构

蛋白质结构的彩色表示，展示了复杂的三维折叠方式，这是AI设计新型蛋白质时需要考虑的关键因素之一。