在人工智能与生物学交叉的前沿领域,一项突破性研究正在改写我们对蛋白质设计的认知。斯坦福大学研究团队开发的"基因组语言模型"Evo,通过学习细菌基因组中功能相关基因的聚类特征,成功预测并生成了多种前所未有的功能性蛋白质。这一发现不仅绕过了传统蛋白质设计的结构预测阶段,更直接从核酸层面创造全新蛋白质,为药物开发、生物技术和合成生物学开辟了全新路径。
从基因组到蛋白质:AI的全新视角
传统上,人工智能在生物学领域的研究主要集中在蛋白质结构与功能的关系上。这些努力包括预测大多数蛋白质的结构,以及设计能够执行有用功能的蛋白质。然而,所有这些努力都集中在蛋白质及其构建的氨基酸上。

生物学并不直接在蛋白质层面生成新蛋白质,相反,变化必须发生在核酸层面,最终才通过蛋白质表现出来。DNA水平的信息与蛋白质之间存在相当大的距离,包含大量关键的非编码序列、冗余性和一定的灵活性。因此,学习基因组的组织是否有助于AI系统理解如何制造功能蛋白质,这一点并不明显。
然而,最新研究表明,使用细菌基因组进行训练可以帮助开发能够预测蛋白质的系统,其中一些蛋白质看起来像是我们前所未见的。这一发现标志着AI在生物学应用中的重大转变。
训练基因组模型:Evo的诞生
这项新研究由斯坦福大学的一个小型团队完成。它依赖于细菌基因组中常见的一个特征:功能相关基因的聚类。通常,细菌将给定功能所需的所有基因——导入和消化糖类、合成氨基酸等——排列在基因组的相邻位置。在许多情况下,所有基因都被转录成单个大型信使RNA。这为细菌提供了一种简单的方法,可以同时控制整个生化途径的活性,提高细菌代谢的效率。

研究人员开发了他们称之为"基因组语言模型"的Evo系统,使用了大量细菌基因组进行训练。训练过程类似于大型语言模型,Evo被要求预测序列中的下一个碱基,预测正确时获得奖励。它也是一个生成式模型,可以接受提示并输出具有一定随机性的新序列,因为相同的提示可以产生一系列不同的输出。
研究人员认为,这种设置使Evo能够"将核苷酸水平的模式与千碱基尺度的基因组上下文联系起来"。换句话说,如果您向它提供大量基因组DNA片段作为提示,Evo可以将其解释为LLM解释查询的方式,并产生在基因组意义上适合该解释的输出。
验证Evo:从已知到未知
为了开始测试该系统,研究人员使用已知蛋白质的基因片段作为提示,并确定Evo是否能够完成它们。在一个例子中,如果给定已知蛋白质基因序列的30%,Evo能够输出剩余部分的85%。当提示序列的80%时,它可以返回所有缺失序列。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失的基因。
大量训练数据确保Evo正确识别了蛋白质最重要的区域。如果它对序列进行修改,这些修改通常位于蛋白质中可变性能容忍的区域。换句话说,其训练使系统能够整合已知基因变化的进化限制规则。
研究人员决定测试当Evo被要求输出新内容时会发生什么。为此,他们使用了细菌毒素,这些毒素通常与抗毒素一起编码,以防止细胞在激活基因时自杀。自然界中有很多这样的例子,它们作为细菌与竞争对手之间军备竞赛的一部分迅速进化。因此,团队开发了一种与已知毒素仅有微弱关联且没有已知抗毒素的毒素,并将其序列作为提示提供给Evo。这一次,他们过滤掉了任何看起来类似于已知抗毒素基因的响应。
测试Evo返回的10个输出,发现其中一半能够挽救某些毒性,其中两个完全恢复了产生毒素的细菌的生长。这两种抗毒素与已知抗毒素仅有极其微弱的相似性,序列一致性约为25%。它们并不是简单地将少量已知抗毒素片段拼接而成;至少,它们似乎是由15到20个单独蛋白质的部分组装而成。在另一个测试中,输出需要将40个已知蛋白质的部分拼接在一起。
突破限制:创造全新蛋白质
Evo的成功不仅限于蛋白质。当他们测试一种具有RNA抑制剂的毒素时,该系统能够输出编码具有正确结构特征的RNA的DNA,即使特定序列与任何已知物没有密切关联。
团队对CRISPR系统的抑制剂进行了类似测试,CRISPR是我们用于基因编辑的技术,但细菌进化出它作为保护免受病毒侵害的形式。天然存在的CRISPR抑制剂非常多样化,其中许多似乎彼此无关。团队再次过滤输出,只包含编码蛋白质的输出,并过滤掉任何看起来像我们已经知道的蛋白质。在他们制作蛋白质的输出列表中,17%能够抑制CRISPR功能。其中两个与众不同,因为它们与任何已知蛋白质都没有相似性,并且混淆了旨在预测蛋白质三维结构的软件。
换句话说,除了您期望的输出类型外,Evo似乎能够输出完全全新但功能性的蛋白质。而且它似乎在不考虑蛋白质结构的情况下做到了这一点。
潜在应用与未来展望
鉴于他们的系统似乎有效,研究人员决定用几乎所有东西作为提示:来自细菌及其捕食病毒的170万个独立基因。结果是1200亿个碱基对的AI生成DNA,其中一些包含我们已经知道的基因,一些可能包含真正新颖的内容。目前尚不清楚如何有效地利用这一资源,但我可以想象,一些富有创造力的生物学家会想出一些方法。
尚不清楚这种方法是否适用于更复杂的基因组,比如我们人类拥有的基因组。脊椎动物等生物体大多不聚类功能相关的基因,它们的基因结构更加复杂,可能会混淆试图学习碱基频率统计规则的系统。而且,需要明确的是,它解决了与开发有用酶(如消化塑料)的有向设计努力不同的问题。
尽管如此,这种方法能够工作仍然令人惊叹。从概念上讲,它很有趣,因为它将寻找功能蛋白质的问题带到了核酸层面,而进化通常在这个层面发挥作用。
这项研究代表了AI在生物学应用中的重大突破,它不仅改变了我们设计和创造蛋白质的方式,也为解决生物学和医学中的复杂问题提供了全新工具。随着技术的进一步发展,我们可以期待看到更多基于AI的蛋白质设计应用,从新药开发到环境修复,再到生物材料的创造,都将因此受益。
技术挑战与伦理考量
虽然这项技术在细菌基因组中表现出色,但要将其扩展到更复杂的生物体仍面临挑战。真核生物的基因结构更加复杂,包含更多的调控元件和非编码区域,这可能会给基于统计规则的AI系统带来困难。
此外,随着AI设计蛋白质能力的增强,我们也需要考虑相关的伦理问题。特别是,如果这项技术被用于创造可能有害的蛋白质或生物体,我们需要建立适当的监管框架和安全协议。
结论:开启蛋白质设计新纪元
斯坦福大学研究团队开发的基因组语言模型Evo代表了蛋白质设计领域的范式转变。通过直接从核酸层面工作,Evo能够绕过传统蛋白质设计的结构预测阶段,创造出功能全新且与已知蛋白质相似性极低的蛋白质。
这一突破不仅展示了AI在生物学中的潜力,也为解决全球性挑战提供了新工具。从开发新型药物到创造能够降解污染物的酶,再到设计新型生物材料,Evo及其后续技术可能会彻底改变我们与生物世界互动的方式。
随着技术的不断发展和完善,我们可以期待看到更多基于AI的蛋白质设计应用,这将推动生物技术、医学和材料科学的创新,为人类面临的许多挑战提供解决方案。这项研究只是开始,蛋白质设计的未来令人兴奋,而AI将在其中扮演关键角色。









