AI解码细菌基因组：创造前所未见的蛋白质新纪元

在生物学领域，人工智能系统最近在蛋白质结构与功能关系的关键方面取得了显著突破。这些努力包括预测大多数蛋白质结构以及设计具有特定功能蛋白质的能力。然而，所有这些努力都集中在蛋白质及其构建的氨基酸上。而生物学实际上并非在蛋白质层面生成新蛋白质，而是在核酸酸层面发生改变，最终通过蛋白质体现出来。

从基因组到蛋白质：AI的新视角

DNA层面的信息与蛋白质之间存在相当大的距离，包含大量关键的非编码序列、冗余性和一定程度的灵活性。因此，学习基因组的组织是否能帮助AI系统了解如何制造功能性蛋白质，这一点并不明确。但现在看来，使用细菌基因组进行训练可以帮助开发一种能够预测蛋白质的系统，其中一些蛋白质看起来前所未见。

蛋白质结构示意图

斯坦福大学的一个小型研究团队完成了这项新工作。它依赖于细菌基因组中的一个常见特征：功能相关基因的聚集。通常，细菌会将给定功能所需的所有基因——例如导入和消化糖类、合成氨基酸等——在基因组中紧密排列在一起。在许多情况下，所有基因都被转录成一条大型信使RNA。这为细菌提供了一种简单的方法，可以一次性控制整个生化途径的活性，提高细菌代谢的效率。

基因组语言模型的训练与原理

研究人员利用庞大的细菌基因组集合，开发了一种他们称为"基因组语言模型"的系统，命名为Evo。训练方式类似于大型语言模型，Evo被要求输出序列中下一个碱基的预测，预测正确时获得奖励。它也是一个生成式模型，可以接受提示并输出具有一定程度随机性的新序列，因为相同的提示可以产生一系列不同的输出。

研究人员认为，这种设置使Evo能够"将核苷酸级别的模式与千碱基级别的基因组背景联系起来"。换句话说，如果你给它提供一大块基因组DNA作为提示，Evo可以像LLM解释查询一样解释它，并产生在基因组意义上适合该解释的输出。

研究人员推测，鉴于在细菌基因组上的训练，他们可以使用已知基因作为提示，Evo应该产生包含编码具有相关功能蛋白质区域的输出。关键问题是，它是否会简单地输出已知蛋白质的序列，或者是否能产生不太可预测的输出。

从已知到未知：蛋白质设计的突破

为了开始测试该系统，研究人员使用已知蛋白质基因片段作为提示，并确定Evo是否能够完成它们。在一个例子中，如果给定已知蛋白质基因序列的30%，Evo能够输出剩余部分的85%。当提示包含80%的序列时，它可以返回所有缺失序列。当从功能簇中删除单个基因时，Evo也能正确识别并恢复缺失的基因。

大量的训练数据确保Evo正确识别了蛋白质最重要的区域。如果它对序列进行修改，这些修改通常位于蛋白质中允许变异的区域。换句话说，其训练使系统能够纳入已知基因变化的进化限制规则。

毒素与抗毒素系统的创新

研究人员决定测试当Evo被要求输出新内容时会发生什么。为此，他们使用了细菌毒素，这些毒素通常与抗毒素一起编码，以防止细胞在激活基因时自杀。自然界中有很多这样的例子，它们作为细菌与竞争对手之间军备竞赛的一部分迅速进化。

AI蛋白质设计流程

研究团队开发了一种与已知毒素仅有微弱关联且无已知抗毒素的毒素，并将其序列作为提示提供给Evo。这次，他们过滤掉任何看起来与已知抗毒素基因相似的响应。在测试Evo返回的10个输出中，发现其中一半能够挽救一些毒性，其中两个完全恢复了产生毒素的细菌的生长。这两个抗毒素与已知抗毒素的序列相似度极低，约为25%。它们不仅仅是将少量已知抗毒素片段拼接在一起；至少，它们似乎是由15到20个不同蛋白质的片段组装而成。在另一个测试中，输出需要由40个已知蛋白质的片段拼接而成。

RNA结构设计的突破

Evo的成功不仅限于蛋白质。当他们测试具有RNA抑制剂的另一种毒素时，该系统能够输出编码具有正确结构特征的RNA的DNA，即使特定序列与任何已知物没有密切关联。

全新蛋白质的创造

研究团队对CRISPR系统的抑制剂进行了类似的测试，CRISPR是我们用于基因编辑的技术，但细菌进化出它作为对抗病毒的保护形式。天然存在的CRISPR抑制剂非常多样化，其中许多似乎彼此无关。同样，研究团队过滤输出，只包含编码蛋白质的，并过滤掉任何看起来像我们已经了解的蛋白质。在他们制造蛋白质的输出列表中，17%成功抑制了CRISPR功能。其中两个与众不同，因为它们与任何已知蛋白质都没有相似性，并且混淆了旨在预测蛋白质三维结构的软件。

换句话说，除了预期类型的输出外，Evo似乎能够输出完全新颖但功能正常的蛋白质。而且它似乎这样做时完全没有考虑蛋白质的结构。

巨大规模的蛋白质生成

鉴于他们的系统似乎有效，研究人员决定用几乎所有东西作为提示：来自细菌及其捕食病毒的170万个独立基因。结果是1200亿个碱基对的AI生成DNA，其中一些包含我们已经知道的基因，一些可能包含真正新颖的内容。目前尚不清楚任何人如何有效利用这一资源，但我相信会有一些富有创造力的生物学家会想到办法。

技术局限与未来展望

目前尚不清楚这种方法是否适用于更复杂的基因组，比如我们人类的基因组。脊椎动物等生物体大多不将功能相关的基因聚集在一起，它们的基因结构更加复杂，可能会试图学习碱基频率统计规则的系统感到困惑。

基因组编辑技术

此外，需要明确的是，它解决了与定向设计不同的问题，定向设计已经开发出具有消化塑料等有用功能的酶。

尽管如此，这种方法能够奏效仍然令人惊叹。从概念上讲，它很有趣，因为它将寻找功能蛋白质的问题降到了核酸层面，进化通常在这个层面发挥作用。这一突破不仅改变了我们设计蛋白质的方式，也为理解生命的基本机制提供了新视角，预示着生物技术领域即将迎来一场革命性的变革。