在人工智能与生物学的交叉领域,一项由斯坦福大学研究团队开发的突破性技术正在重塑我们对蛋白质设计的理解。这项名为"基因组语言模型"的Evo系统,通过学习细菌基因组的组织规律,成功生成了多种前所未见的蛋白质,为生物技术领域开辟了全新的可能性。
从蛋白质到基因组:AI视角的转换
近年来,AI系统在生物学领域取得了显著成就,特别是在蛋白质结构与功能关系的研究方面。从预测蛋白质三维结构到设计具有特定功能的蛋白质,AI技术已经展现出强大能力。然而,这些努力主要集中在蛋白质本身及其氨基酸组成上,而忽略了生物学中一个关键事实:蛋白质的生成始于核酸层面的变化。
DNA层面的信息与蛋白质之间存在相当大的距离,包含大量非编码序列、冗余机制以及相当程度的灵活性。因此,学习基因组的组织是否能帮助AI系统理解如何制造功能性蛋白质,这一点并不明显。斯坦福大学的研究团队通过创新方法,证明了这一思路的可行性。
基因组语言模型:Evo的诞生
细菌基因组中一个普遍特征是功能相关基因的聚集现象。通常,细菌会将执行特定功能所需的所有基因——如导入和消化某种糖类、合成氨基酸等——在基因组中紧密排列。在许多情况下,这些基因会被转录为单个大型信使RNA,使细菌能够同时控制整个生化通路的活性,提高代谢效率。
基于这一观察,研究人员开发了一个名为"Evo"的"基因组语言模型",使用大量细菌基因组进行训练。Evo的训练方式类似于大型语言模型:它被要求预测序列中的下一个碱基,预测正确时获得奖励。同时,Evo也是一个生成式模型,能够根据提示输出具有一定程度随机性的新序列,即同一提示可以产生一系列不同的输出。
研究人员认为,这种设置使Evo能够"将核苷酸水平的模式与千碱基尺度的基因组上下文联系起来"。换句话说,如果给它提供一个大型基因组DNA片段,Evo可以像LLM解释查询一样理解它,并输出在基因组层面上适合该解释的结果。
验证Evo的预测能力
为了测试Evo系统的能力,研究人员首先用已知蛋白质基因片段作为提示,确定Evo能否完成这些序列。在一个例子中,给定已知蛋白质基因序列的30%,Evo能够输出剩余85%的序列;当提示包含80%的序列时,它能返回所有缺失部分。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失基因。
大量训练数据确保了Evo能正确识别蛋白质中最重要的区域。如果它对序列进行修改,通常位于蛋白质中允许变异的区域。换句话说,其训练使系统能够整合已知基因变化的进化限制规则。
创造全新蛋白质:突破性实验
在验证了Evo的预测能力后,研究人员决定测试其创造全新蛋白质的能力。他们选择了细菌毒素作为研究对象,这些毒素通常与抗毒素基因共同编码,防止细菌在激活基因时自我毁灭。自然界中存在大量此类例子,它们作为细菌与竞争对手之间军备竞赛的一部分迅速进化。
研究团队开发了一种与已知毒素仅有微弱关联且无已知抗毒素的毒素,并将其序列提供给Evo作为提示。同时,他们过滤掉任何与已知抗毒素基因相似的响应。在测试Evo返回的10个输出中,一半能够挽救部分毒性,其中两个完全恢复了产生毒素的细菌的生长能力。这两个抗毒素与已知抗毒素的序列相似度极低,仅约25%。它们并非简单地将少量已知抗毒素片段拼接而成,而是至少由15-20个不同蛋白质的部分组装而成。在另一项测试中,输出需要由40个已知蛋白质的部分拼接而成。
Evo的成功不仅限于蛋白质。当测试一种具有RNA抑制剂的毒素时,系统能够输出编码具有正确结构特征的RNA的DNA,即使特定序列与已知序列没有密切关联。
完全创新的蛋白质:CRISPR系统抑制剂
研究团队还对CRISPR系统的抑制剂进行了类似测试。CRISPR系统是我们用于基因编辑的工具,但细菌将其进化为对抗病毒的保护机制。自然存在的CRISPR抑制剂非常多样化,其中许多似乎彼此无关。同样,团队过滤了输出,仅包含编码蛋白质的部分,并排除了任何看起来已知的蛋白质。在他们制造的蛋白质列表中,17%能够抑制CRISPR功能。其中两个尤为独特,因为它们与任何已知蛋白质都没有相似性,甚至使旨在预测蛋白质三维结构的软件感到困惑。
这表明,除了预期的输出外,Evo似乎能够输出完全全新 yet 功能性的蛋白质,而且似乎在不考虑蛋白质结构的情况下就能做到这一点。
大规模基因组探索:1.7万个基因的挑战
鉴于系统似乎有效,研究人员决定用几乎所有东西提示它:来自细菌及其捕食病毒的170万个独立基因。结果产生了1200亿个碱基对的AI生成DNA,其中包含一些已知的基因,一些可能包含真正新颖的内容。目前尚不清楚如何有效利用这一资源,但可以想象会有一些富有创造力的生物学家想出用途。
局限性与未来展望
值得注意的是,这种方法可能不适用于更复杂的基因组,如人类基因组。脊椎动物等生物大多不聚集功能相关基因,其基因结构也更为复杂,可能会试图学习碱基频率统计规则的系统感到困惑。此外,需要明确的是,它解决了与定向设计不同的问题——后者已开发出执行有用功能的酶,如降解塑料的酶。
尽管如此,这种方法能够奏效本身已经令人惊叹。从概念上讲,它引人入胜,因为它将寻找功能性蛋白质的问题降低到了核酸层面,这正是进化通常发挥作用的地方。
这一突破性研究不仅展示了AI在生物设计领域的潜力,还为我们理解基因组组织和蛋白质进化提供了新视角。随着技术的进一步发展,我们可能会看到更多基于AI的蛋白质设计应用,从药物开发到生物材料,再到环境修复,AI驱动的蛋白质设计有望成为生物技术领域的革命性力量。


结论:AI与生物学的融合新篇章
斯坦福大学开发的Evo模型代表了AI与生物学融合的新篇章。通过学习细菌基因组的组织规律,该系统能够预测并生成具有特定功能的全新蛋白质,这一成就将AI应用从蛋白质结构预测提升到了基因序列设计层面。虽然目前主要适用于细菌等简单基因组,但随着技术的不断进步,我们有理由期待这一方法能够扩展到更复杂的生物系统,为解决人类面临的健康、环境等挑战提供新的解决方案。
这项研究不仅展示了AI在生物设计领域的潜力,还为我们理解基因组组织和蛋白质进化提供了新视角。未来,随着计算能力的提升和算法的优化,我们可能会看到更多基于AI的蛋白质设计应用,从药物开发到生物材料,再到环境修复,AI驱动的蛋白质设计有望成为生物技术领域的革命性力量。









