在人工智能与生物学交叉领域,一项突破性研究正在改变我们创造蛋白质的方式。斯坦福大学的研究团队开发了一种名为"Evo"的基因组语言模型,通过训练大量细菌基因组数据,成功创造出多种具有功能的全新蛋白质,这些蛋白质在自然界中从未被发现过。这一发现不仅拓展了AI在生物领域的应用边界,更为蛋白质设计和合成生物学开辟了全新路径。
基因组模型的训练原理
传统的AI系统在蛋白质结构预测和功能设计方面已取得显著成就,但这些工作主要集中在蛋白质和氨基酸层面。而真正的生物学创新始于核酸层面——DNA和RNA的变化最终才会通过蛋白质表现出来。然而,DNA层面的信息与蛋白质之间存在较大距离,包含大量非编码序列、冗余结构和一定程度的灵活性,这使得学习基因组组织如何帮助AI设计功能性蛋白质变得不那么直观。

细菌基因组的一个显著特征是功能相关基因的聚集现象。通常,细菌会将执行特定功能所需的所有基因——如导入和消化糖类、合成氨基酸等——在基因组中紧密排列。在许多情况下,所有基因会被转录为单个大型信使RNA,使细菌能够一次性控制整个生化通路的活性,提高代谢效率。
基于这一特点,研究人员开发了Evo系统,使用大量细菌基因组进行训练。训练过程类似于大型语言模型:Evo被要求预测序列中的下一个碱基,预测正确时获得奖励。同时,Evo也是一个生成式模型,可以接受提示并输出具有一定随机性的新序列——相同的提示可能产生不同的输出结果。
研究人员认为,这种设置使Evo能够"将核苷酸水平的模式与千碱基规模的基因组背景联系起来"。换句话说,如果给它提供一大段基因组DNA作为提示,Evo能够像LLM解释查询一样理解它,并在基因组意义上生成适当的输出。
从已知到未知的蛋白质生成
为了测试系统性能,研究人员首先使用已知蛋白质基因片段作为提示,观察Evo能否完成这些序列。在一个实验中,当给定已知蛋白质基因序列的30%时,Evo能够输出剩余85%的序列;当提示包含80%的序列时,它能够返回所有缺失部分。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失基因。
大量训练数据确保了Evo能够正确识别蛋白质最重要的区域。如果它对序列进行修改,这些修改通常位于蛋白质中允许变异的区域。换言之,其训练使系统能够融入已知基因变化的进化限制规则。

真正的突破出现在研究人员要求Evo生成全新蛋白质时。他们使用细菌毒素作为测试对象,这些毒素通常与抗毒素基因一起编码,防止细胞在激活基因时自我毁灭。自然界中存在大量此类例子,它们作为细菌与竞争对手军备竞赛的一部分快速进化。
研究团队开发了一种与已知毒素仅有微弱关联且无已知抗毒素的毒素,将其序列作为提示提供给Evo,并过滤掉任何与已知抗毒素基因相似的响应。在测试Evo返回的10个输出中,一半能够挽救某些毒性,其中两个完全恢复了产生毒素的细菌的生长能力。这两种抗毒素与已知抗毒素的序列一致性极低,仅约25%。它们并非简单地将少量已知抗毒素片段拼接而成,至少是由15-20个不同蛋白质的部分组装而成。在另一项测试中,输出需要从40个已知蛋白质的部分拼接而成。
Evo的成功不仅限于蛋白质。当测试另一种具有RNA抑制剂的毒素时,系统能够编码具有正确结构特征的RNA,即使特定序列与已知序列没有密切关联。
全新蛋白质的设计与应用
研究团队对CRISPR系统抑制剂进行了类似测试,CRISPR是我们用于基因编辑的技术,但细菌将其进化为抵御病毒的保护机制。天然存在的CRISPR抑制剂非常多样化,其中许多似乎彼此无关。研究团队再次过滤输出,只包含编码蛋白质且与已知蛋白质不相似的序列。在他们制造的蛋白质列表中,17%能够抑制CRISPR功能。其中两种尤为独特,因为它们与任何已知蛋白质都没有相似性,甚至让专门用于预测蛋白质三维结构的软件感到困惑。
换句话说,除了可预期的输出外,Evo似乎能够输出完全新颖但功能正常的蛋白质,而且它似乎在不考虑蛋白质结构的情况下做到了这一点。
鉴于该系统似乎有效,研究人员决定用几乎所有东西作为提示:来自细菌及其捕食病毒的170万个独立基因。结果生成了1200亿个碱基对的AI生成DNA,其中一些包含我们已知的基因,一些可能包含真正新颖的内容。目前尚不清楚如何有效利用这一资源,但可以想象,会有一些富有创造力的生物学家想出办法。
技术局限与未来展望
需要注意的是,这种方法可能不适用于更复杂的基因组,如人类基因组。脊椎动物等生物大多不聚集功能相关的基因,其基因结构更为复杂,可能会试图学习碱基频率统计规则的系统感到困惑。此外,需要明确的是,它解决了与定向设计不同的问题——后者已开发出具有消化塑料等有用功能的酶。
尽管如此,这种方法能够工作本身就已经相当令人惊叹。从概念上讲,它引人入胜,因为它将寻找功能性蛋白质的问题降到了核酸层面——这正是进化通常发挥作用的地方。
这项研究代表了AI与生物学融合的又一个重要里程碑。通过在基因组水平上理解和生成序列,Evo系统展示了AI不仅能够预测和模仿自然,还能够创造自然界中不存在但具有功能的新分子。这不仅为药物开发、生物材料合成和工业酶设计提供了新工具,也为理解生命的基本原理和进化机制提供了新视角。
随着技术的不断进步,我们可以期待看到更多基于基因组AI的创新应用。从设计能够降解环境污染物的酶,到创造具有全新医疗活性的蛋白质,再到开发更高效的基因编辑工具,基因组语言模型有潜力解决人类面临的一些最紧迫的生物学挑战。这项研究只是开始,未来几年我们可能会见证更多令人兴奋的突破。











