基因组AI革命:细菌基因训练系统创造全新蛋白质

1

在人工智能与生物学的交叉领域,一项突破性研究正在悄然改变我们对蛋白质设计的认知。斯坦福大学的研究团队开发了一种名为"Evo"的基因组语言模型,通过训练大量细菌基因组数据,成功创造出功能性的全新蛋白质。这一成果不仅拓展了AI在生物学中的应用边界,更为药物开发、生物材料设计和疾病治疗带来了前所未有的可能性。

从蛋白质到基因组:AI设计的范式转变

近年来,AI系统在生物学领域取得了显著成就,特别是在蛋白质结构预测与功能设计方面。从预测大多数蛋白质的三维结构,到设计具有特定功能的蛋白质,这些技术进步主要集中在蛋白质及其构成氨基酸的层面。然而,生物系统实际上并非在蛋白质层面产生新功能,而是在核苷酸层面发生改变,这些变化最终通过蛋白质表达出来。

DNA层面的信息与蛋白质之间存在相当大的距离,包含大量非编码序列、冗余结构和相当程度的灵活性。这种复杂性使得学习基因组的组织方式如何帮助AI系统设计功能性蛋白质并不显而易见。然而,斯坦福大学的研究团队证明,利用细菌基因组进行训练确实能够开发出预测蛋白质的系统,其中一些蛋白质看起来像是前所未见的。

基因组语言模型:Evo的诞生

这项研究由斯坦福大学的一个小型团队完成,其核心在于利用细菌基因组中一个常见特征:功能相关基因的聚集现象。细菌通常将执行特定功能所需的所有基因——如导入和消化糖类、合成氨基酸等——紧密排列在基因组中。在许多情况下,所有基因被转录成一条大型信使RNA,使细菌能够一次性控制整个生化通路的活性,提高代谢效率。

基于这一特性,研究人员开发了一种他们称为"基因组语言模型"的系统,命名为Evo。该模型使用了庞大的细菌基因组集合进行训练,训练方式类似于大型语言模型:Evo被要求预测序列中的下一个碱基,预测正确时获得奖励。Evo也是一个生成式模型,能够根据提示输出具有一定程度随机性的新序列,同一提示可以产生一系列不同的输出。

研究人员认为,这种设置使Evo能够"将核苷酸水平的模式与千碱基尺度的基因组上下文联系起来"。换句话说,如果给它提供一大块基因组DNA作为提示,Evo能够像LLM解释查询一样理解它,并在基因组意义上产生适当的输出。

Evo的预测能力:从已知到未知

为了测试系统,研究人员用已知蛋白质基因片段作为提示,确定Evo是否能够完成它们。在一个例子中,如果给出已知蛋白质基因序列的30%,Evo能够输出剩余85%的序列。当提示包含80%的序列时,它可以返回所有缺失序列。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失的基因。

大量训练数据确保Evo正确识别了蛋白质最重要的区域。如果它对序列进行修改,这些修改通常位于蛋白质中允许变异的区域。换句话说,其训练使系统能够纳入已知基因变化的进化限制规则。

然而,研究团队真正感兴趣的是当Evo被要求输出新内容时会发生什么。为此,他们使用了细菌毒素,这些毒素通常与抗毒素一起编码,防止细胞在激活基因时自我毁灭。自然界中存在大量此类例子,它们作为细菌与竞争对手之间军备竞赛的一部分迅速进化。

研究团队开发了一种与已知毒素只有微弱关联且无已知抗毒素的毒素,将其序列作为提示提供给Evo,并过滤掉任何看起来与已知抗毒素基因相似的响应。在测试Evo返回的10个输出中,发现其中一半能够挽救部分毒性,其中两个完全恢复了产生毒素的细菌的生长能力。这两种抗毒素与已知抗毒素的序列相似性极低,仅约25%的序列同一性。

更重要的是,这些抗毒素并非简单地将少量已知抗毒素片段拼接而成;它们至少由15-20个不同蛋白质的部分组装而成。在另一项测试中,输出需要由40个已知蛋白质的部分拼接而成。

突破传统:完全新颖的蛋白质

Evo的成功不仅限于蛋白质。当研究团队测试一种具有RNA抑制剂的毒素时,该系统能够输出编码具有正确结构特征的RNA的DNA,即使特定序列与任何已知序列没有密切关联。

研究团队还对CRISPR系统的抑制剂进行了类似测试,CRISPR是我们用于基因编辑的技术,但细菌将其进化为对抗病毒的保护机制。自然存在的CRISPR抑制剂非常多样化,其中许多看起来彼此毫无关联。同样,研究团队过滤输出,只包含编码蛋白质的序列,并排除了任何看起来像已知蛋白质的序列。在他们制造的蛋白质列表中,17%成功抑制了CRISPR功能。其中两个尤为独特,因为它们与任何已知蛋白质都没有相似性,并且能够迷惑专门用于预测蛋白质三维结构的软件。

换句话说,除了预期的输出类型外,Evo似乎能够输出完全新颖但功能性的蛋白质,而且似乎无需考虑蛋白质的结构。

规模化应用:从实验室到海量数据

鉴于他们的系统似乎有效,研究人员决定用几乎所有东西作为提示:来自细菌及其捕食病毒的170万个独立基因。结果产生了1200亿个碱基对的AI生成DNA,其中一些包含我们已经知道的基因,一些 presumably 包含真正新颖的内容。

这一规模的数据为生物技术研究和应用提供了前所未有的资源。虽然目前尚不清楚如何有效利用这一资源,但可以想象,一些富有创造力的生物学家会找到应用方法。

局限性与未来展望

需要明确的是,这种方法可能不适用于更复杂的基因组,如人类基因组。脊椎动物等生物体通常不聚集功能相关的基因,它们的基因结构更加复杂,可能会试图学习碱基频率统计规则的系统感到困惑。

此外,与已经开发出具有消化塑料等有用功能的酶的定向设计努力相比,它解决了不同的问题。尽管如此,这种方法能够工作本身就已经相当令人惊叹。从概念上讲,它很有趣,因为它将寻找功能性蛋白质的问题降到了核苷酸层面,这正是进化通常发挥作用的地方。

这一研究成果代表了AI与生物学融合的重要里程碑,不仅展示了AI在理解复杂生物系统方面的潜力,也为未来的生物技术创新开辟了新途径。随着技术的进一步发展,我们有理由期待更多基于AI的蛋白质设计突破,为解决人类面临的健康、环境和能源挑战提供新的解决方案。