在人工智能与生物学交叉领域,一项最新研究为蛋白质设计带来了革命性突破。斯坦福大学研究团队开发的基因组语言模型'Evo',通过学习细菌基因组的组织规律,成功生成了多种前所未见的功能性蛋白质。这一发现不仅挑战了我们对蛋白质设计的传统认知,更为药物开发、生物工程等领域开辟了全新可能性。
从蛋白质到基因组的逆向思维
长期以来,AI系统在生物学领域的成功主要集中在蛋白质结构与功能关系这一关键方面。这些努力包括预测大多数蛋白质的结构以及设计具有特定功能的蛋白质。然而,所有这些努力都集中在蛋白质及其构建的氨基酸层面。
但生物学并非在蛋白质层面生成新蛋白质。相反,变化必须首先在核酸层面发生,然后才最终在蛋白质层面体现。DNA与蛋白质之间存在相当大的距离,其间包含大量关键的非编码序列、冗余性和相当的灵活性。因此,学习基因组的组织方式是否能帮助AI系统理解如何制造功能性蛋白质,这一点并不明确。
斯坦福大学的研究团队发现,利用细菌基因组进行训练确实可以帮助开发出能够预测蛋白质的系统,其中一些蛋白质看起来像我们从未见过的东西。
基因组模型的训练原理
这项研究由斯坦福大学的一个小型团队完成。它依赖于细菌基因组中一个常见特征:具有相关功能的基因聚类。通常,细菌会将给定功能所需的所有基因——例如导入和消化糖类、合成氨基酸等——排列在基因组中彼此相邻的位置。在许多情况下,所有基因都被转录成一条大型信使RNA。这为细菌提供了一种简单的方式来同时控制整个生化途径的活性,提高了细菌代谢的效率。

基于这一特点,研究人员在一个庞大的细菌基因组集合上开发了一种他们称为"基因组语言模型"的Evo系统。其训练方式类似于大型语言模型,Evo被要求输出序列中下一个碱基的预测,预测正确时获得奖励。它也是一个生成式模型,可以接受提示并输出具有一定随机性的新序列,因为相同的提示可以产生一系列不同的输出。
研究人员认为,这种设置使Evo能够"将核苷酸水平的模式与千碱基规模的基因组上下文联系起来"。换句话说,如果您向它提供一大段基因组DNA作为提示,Evo可以像LLM解释查询一样解释它,并产生在基因组意义上适合该解释的输出。
测试与验证
为了开始测试该系统,研究人员用已知蛋白质基因片段作为提示,确定Evo是否能够完成它们。在一个例子中,如果给出已知蛋白质基因序列的30%,Evo能够输出剩余部分的85%。当用序列的80%作为提示时,它可以返回所有缺失序列。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失的基因。
大量训练数据还确保Evo正确识别了蛋白质最重要的区域。如果它对序列进行修改,这些修改通常位于蛋白质中允许变异的区域。换句话说,其训练使系统能够 incorporate已知基因变化的进化限制规则。
全新蛋白质的诞生
研究人员决定测试当Evo被要求输出新内容时会发生什么。为此,他们使用了细菌毒素,这些毒素通常与一种抗毒素一起编码,该抗毒素可以防止细胞在激活基因时自杀。自然界中有很多这样的例子,它们往往随着细菌与竞争对手之间的军备竞赛而快速进化。

研究团队开发了一种与已知毒素仅有微弱关联且无已知抗毒素的毒素,并将其序列作为提示提供给Evo。这一次,他们过滤掉了任何看起来与已知抗毒素基因相似的响应。
在测试Evo返回的10个输出中,发现其中一半能够挽救某些毒性,其中两个完全恢复了产生毒素的细菌的生长。这两个抗毒素与已知抗毒素的序列相似度极低,约为25%的序列一致性。它们并不是简单地将少量已知抗毒素片段拼接在一起;至少,它们似乎是由15到20个不同蛋白质的部分组装而成。在另一项测试中,输出需要从40个已知蛋白质的部分拼接而成。
Evo的成功不仅限于蛋白质。当他们测试一种具有RNA抑制剂的毒素时,该系统能够输出编码具有正确结构特征的RNA的DNA,即使特定序列与任何已知序列没有密切关联。
完全陌生的蛋白质
研究团队对CRISPR系统的抑制剂进行了类似的测试,CRISPR是我们用于基因编辑的工具,但细菌将其进化为抵抗病毒的保护形式。天然存在的CRISPR抑制剂非常多样,其中许多似乎彼此无关。研究团队再次过滤输出,只包含编码蛋白质的那些,并过滤掉任何看起来像我们已经了解的蛋白质。
在他们制作蛋白质的输出列表中,有17个能够抑制CRISPR功能。其中两个与众不同,因为它们与任何已知蛋白质都没有相似性,并且混淆了旨在预测蛋白质三维结构的软件。
换句话说,除了预期的输出类型外,Evo似乎能够输出完全新颖但功能正常的蛋白质。而且它似乎这样做时完全不考虑蛋白质的结构。
巨大潜力与未来展望
鉴于他们的系统似乎有效,研究人员决定用几乎所有东西作为提示:来自细菌及其捕食病毒的170万个独立基因。结果是1200亿个碱基对的AI生成DNA,其中一些包含我们已经知道的基因,一些可能包含真正新颖的内容。目前尚不清楚如何有效利用这一资源,但我可以想象会有一些富有创造力的生物学家会想出一些用途。
目前尚不清楚这种方法是否适用于更复杂的基因组,比如我们人类的基因组。脊椎动物等生物体大多不将具有相关功能的基因聚类在一起,它们的基因结构更加复杂,可能会试图学习碱基频率统计规则的系统感到困惑。
尽管如此,这种方法能够工作本身就已经相当令人惊叹。从概念上讲,它很有趣,因为它将寻找功能性蛋白质的问题带到了核酸层面,而进化通常正是在这一层面发挥作用。
这项研究代表了AI与生物学融合的重要里程碑,展示了人工智能不仅能够理解现有生物系统,还能够创造全新的功能性分子。随着技术的进一步发展,我们可能会看到更多基于AI的蛋白质设计应用,从疾病治疗到环境修复,这些应用将彻底改变我们应对生物学挑战的方式。
技术挑战与伦理考量
尽管这项研究取得了显著成果,但仍面临一些技术挑战。首先,目前的方法主要适用于细菌等简单基因组,对于更复杂的真核生物基因组可能效果有限。其次,AI生成的蛋白质功能验证需要大量实验工作,成本高昂且耗时。
此外,随着AI在生物设计领域的应用日益广泛,伦理问题也日益凸显。我们需要确保这些技术得到负责任的发展和应用,防止潜在的滥用风险。建立适当的监管框架和伦理准则将是确保这项技术造福人类的关键。
结论
斯坦福大学研究团队开发的Evo基因组语言模型代表了AI驱动的蛋白质设计的重要突破。通过学习细菌基因组的组织规律,该系统能够生成多种前所未见的功能性蛋白质,为蛋白质工程和药物开发开辟了全新途径。
这一研究不仅展示了AI在理解复杂生物系统方面的潜力,还揭示了从核酸层面设计蛋白质的可能性。随着技术的不断发展和完善,我们可以期待看到更多基于AI的蛋白质设计应用,这些应用将在医疗、工业和环境保护等领域产生深远影响。
然而,我们也需要认识到这项技术面临的挑战和伦理问题,并确保其得到负责任的发展和应用。通过平衡创新与责任,我们可以最大限度地发挥AI在生物设计领域的潜力,为人类创造更美好的未来。











