在生物技术领域,人工智能正以前所未有的速度推动着科学边界的拓展。最近,斯坦福大学研究团队开发出一种名为"Evo"的基因组语言模型,通过学习细菌基因组中功能相关基因的聚类模式,成功生成了多种前所未见的蛋白质。这一突破不仅改变了我们理解蛋白质生成的方式,更为生物技术和药物开发开辟了全新路径。
从蛋白质到基因组的视角转变
传统AI系统在生物学领域的主要成功集中在蛋白质结构与功能的关系上。这些系统能够预测大多数蛋白质的结构,并设计出执行有用功能的蛋白质。然而,这些努力都集中在蛋白质本身以及构成它们的氨基酸上。
但生物系统并非直接在蛋白质层面生成新蛋白质。相反,变化必须首先在核酸层面发生,然后才通过蛋白质体现其功能。DNA层面的信息与蛋白质之间存在相当大的距离,包含大量关键的非编码序列、冗余性和相当的灵活性。因此,学习基因组的组织是否能帮助AI系统制造出功能性蛋白质,这一点并不明显。
基因组聚类现象的启示
细菌基因组中存在一个普遍特征:功能相关基因的聚类现象。通常,细菌会将执行特定功能所需的所有基因——如导入和消化糖类、合成氨基酸等——紧密排列在基因组中。在许多情况下,所有基因会被转录成一条单一的、大型信使RNA。这为细菌提供了一种简单的方式,可以同时控制整个生化通路的活性,提高细菌代谢的效率。

基于这一观察,斯坦福研究团队开发了一种他们称为"基因组语言模型"的Evo系统,使用大量细菌基因组进行训练。训练过程类似于大型语言模型,Evo被要求输出序列中下一个碱基的预测,并在预测正确时获得奖励。它也是一个生成式模型,可以接受提示并输出具有一定随机性的新序列,即相同的提示可以产生一系列不同的输出。
研究人员认为,这种设置使Evo能够"将核苷酸水平的模式与千碱基尺度的基因组背景联系起来"。换句话说,如果你给它提供一大块基因组DNA作为提示,Evo可以像LLM解释查询一样解释它,并在基因组意义上产生适当的输出。
Evo模型的工作原理
Evo的训练过程融合了深度学习与基因组学的知识。通过分析数百万个细菌基因组,模型学习了基因组的统计规律和功能组织方式。这种学习不仅包括碱基序列的模式,还包括基因簇、调控元件和非编码区域的功能相关性。
"Evo的独特之处在于它能够理解基因组中的'语法',"研究团队解释道,"就像语言模型理解人类语言的语法一样,Evo理解了基因组的'语法',这使它能够生成在功能上连贯的基因序列。"
从已知到未知的蛋白质生成
为了测试该系统,研究人员使用已知蛋白质的基因片段作为提示,确定Evo是否能够完成它们。在一个例子中,如果给定已知蛋白质基因序列的30%,Evo能够输出剩余85%的序列。当给定80%的序列时,它可以返回所有缺失的序列。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失的基因。

大量的训练数据确保了Evo正确识别了蛋白质最重要的区域。如果它对序列进行修改,这些修改通常位于蛋白质中允许变异的区域。换句话说,其训练使系统能够整合已知基因变化的进化限制规则。
创造全新蛋白质的突破
当研究人员要求Evo输出新内容时,真正的突破出现了。为此,他们使用了细菌毒素,这些毒素通常与抗毒素一起编码,以防止细胞在激活基因时自杀。自然界中有很多这样的例子,它们作为细菌与竞争对手之间军备竞赛的一部分迅速进化。
研究团队开发了一种与已知毒素只有微弱相关性且没有已知抗毒素的毒素,并将其序列作为提示提供给Evo。这次,他们过滤掉了任何与已知抗毒素基因相似的响应。
测试Evo返回的10个输出,发现其中一半能够挽救一些毒性,其中两个完全恢复了产生毒素的细菌的生长。这两种抗毒素与已知抗毒素的序列相似性极低,仅为25%左右。它们并非简单地将少量已知抗毒素片段拼接而成;至少,它们似乎是由15-20个不同蛋白质的部分组装而成。在另一个测试中,输出需要由40个已知蛋白质的部分拼接而成。
超越蛋白质:RNA结构的生成
Evo的成功不仅限于蛋白质。当他们测试一种具有RNA抑制剂的毒素时,该系统能够输出编码具有正确结构特征的RNA的DNA,即使特定序列与已知序列没有密切关系。
在CRISPR系统抑制剂的测试中,研究团队取得了类似的成功。CRISPR抑制剂在自然界中非常多样化,其中许多似乎彼此无关。研究团队再次过滤输出,只包含编码蛋白质的序列,并排除了任何看起来像已知蛋白质的序列。在他们制作蛋白质的输出列表中,17%成功抑制了CRISPR功能。其中两个与众不同之处在于,它们与任何已知蛋白质都没有相似性,并且使旨在预测蛋白质三维结构的软件感到困惑。
规模化应用与潜在挑战
鉴于他们的系统似乎有效,研究人员决定用几乎所有东西作为提示:来自细菌及其捕食病毒的170万个独立基因。结果产生了1200亿个碱基对的AI生成DNA,其中一些包含我们已知的基因,一些可能包含真正新颖的内容。
然而,这种方法是否适用于更复杂的基因组(如人类基因组)尚不清楚。脊椎动物等生物体大多不聚类功能相关的基因,它们的基因结构更加复杂,可能会试图学习碱基频率统计规则的系统感到困惑。
此外,需要明确的是,它解决了与开发执行有用功能(如消化塑料)的酶的有向设计工作不同的问题。
未来展望与影响
尽管存在这些挑战,但这种方法能够工作本身就已经相当令人惊叹。从概念上讲,它很有趣,因为它将寻找功能性蛋白质的问题带到了核酸层面,这正是进化通常发挥作用的地方。
这项研究的影响可能远超出实验室:
药物开发:Evo生成的全新蛋白质可能成为新药物的基础,特别是那些靶向传统方法难以触及的蛋白质。
合成生物学:这项技术可以加速合成生物学的发展,使科学家能够设计具有特定功能的生物系统。
疾病治疗:针对CRISPR抑制剂的发现可能为基因治疗提供新的安全机制。
生物材料:全新蛋白质可能具有独特的物理化学性质,可用于开发新型生物材料。
技术局限与伦理考量
尽管Evo展示了令人兴奋的潜力,但它也存在一些局限性。目前,该系统主要针对细菌基因组优化,可能无法直接应用于更复杂的真核生物基因组。此外,AI生成蛋白质的功能验证仍然是一个耗时且昂贵的过程。
从伦理角度看,这项技术也引发了关于生物安全和生物武器的新问题。能够设计全新蛋白质的能力需要适当的监管框架,以确保这些技术被用于有益目的。
结论
斯坦福大学开发的Evo基因组语言模型代表了AI与生物学交叉领域的重要突破。通过学习细菌基因组中功能相关基因的聚类模式,该系统能够生成多种前所未见的蛋白质,包括那些与已知蛋白质几乎没有相似性的功能性分子。
这项研究不仅展示了AI在理解复杂生物系统方面的潜力,还为我们提供了设计新蛋白质的新方法。随着技术的进一步发展和完善,我们可能会看到更多由AI驱动的生物创新,这些创新将深刻影响医学、工业和环境保护等多个领域。
正如研究人员所言:"Evo不是简单地复制进化已经做过的事情,而是利用我们对进化的理解来探索可能存在的全新蛋白质空间。这正是科学探索的本质——不仅理解已知,还要探索未知。"









