AI突破:基于细菌基因组训练的AI生成全新蛋白质

0

在生物学领域,人工智能(AI)系统近年来取得了显著进展,特别是在蛋白质结构与功能关系的研究方面。从预测大多数蛋白质的三维结构,到设计具有特定功能的蛋白质,AI展现出了强大的能力。然而,这些传统方法都集中在蛋白质及其构建氨基酸的层面。而真正的生物学创新发生在核酸层面,DNA的变化最终通过蛋白质表达出来。

从基因组到蛋白质:AI的新视角

传统的蛋白质设计方法忽视了基因组的复杂性。DNA与蛋白质之间存在大量非编码序列、冗余结构和一定的灵活性,使得从DNA序列到蛋白质功能的映射变得复杂且非直观。斯坦福大学的研究团队提出了一种创新方法:通过训练AI系统理解细菌基因组的组织规律,从而预测和生成全新的功能性蛋白质。

基因组语言模型Evo的诞生

研究人员开发了一种名为"Evo"的"基因组语言模型",该模型基于大量细菌基因组数据训练而成。训练方式类似于大型语言模型(LLM),Evo被要求预测序列中的下一个碱基,并在预测正确时获得奖励。作为一种生成式模型,Evo能够根据提示输出具有一定随机性的新序列,同一提示可以产生多种不同的输出。

Evo的核心优势在于其能够"将核苷酸水平的模式与千碱基尺度的基因组上下文联系起来"。这意味着当输入大段基因组DNA作为提示时,Evo能够像LLM理解查询一样进行解读,并产生在基因组意义上适当的输出。

基因功能聚类:AI学习的生物学基础

细菌基因组的一个显著特征是功能相关基因的聚类现象。通常,细菌会将执行特定功能(如糖类摄取与消化、氨基酸合成等)所需的所有基因排列在基因组中相邻位置。在许多情况下,所有基因会被转录为单个大型信使RNA(mRNA),使细菌能够同时调控整个生化通路的活性,提高代谢效率。

细菌基因组结构 图:细菌基因组中功能相关基因的聚类现象示意图

这种基因聚类为AI系统提供了学习生物学规律的理想素材。通过分析大量细菌基因组,Evo逐渐掌握了基因排列的功能逻辑,使其能够根据已知基因作为提示,生成包含具有相关功能蛋白质编码区域的序列。

从已知到未知:Evo的蛋白质生成能力

研究人员首先测试了Evo系统对已知基因序列的补全能力。结果显示,当提供已知蛋白质基因序列的30%时,Evo能够输出剩余85%的序列;当提供80%的序列时,则能完全补全缺失部分。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失基因。

生成全新抗毒素

真正的突破出现在研究人员要求Evo生成全新蛋白质时。他们选择细菌毒素作为研究对象,这些毒素通常与抗毒素基因共同存在,以防止细菌在激活毒素基因时自我死亡。研究团队设计了一种与已知毒素仅有微弱关联且无已知抗毒素的序列,并将其作为提示输入Evo系统,同时过滤掉与已知抗毒素基因相似的响应。

在测试Evo返回的10个输出中,有5个能够部分缓解毒性,其中2个完全恢复了产生毒素的细菌的生长能力。这两个抗毒素与已知抗毒素的序列相似度极低,仅约25%。更重要的是,这些新蛋白质并非简单地将已知抗毒素片段拼接而成,而是由15-20个不同蛋白质的部分组装而成,其中一个测试输出甚至需要整合40个已知蛋白质的片段。

RNA结构预测能力

Evo的能力不仅限于蛋白质。当测试一种具有RNA抑制剂的毒素时,系统能够输出编码具有正确结构特征的RNA的DNA序列,即使特定序列与已知序列没有密切关联。

完全陌生的蛋白质:超越已知结构

研究团队进一步测试了Evo对CRISPR系统抑制剂的生成能力。CRISPR抑制剂在自然界中多样性极高,许多抑制剂之间似乎没有关联。研究人员过滤了输出结果,仅保留编码蛋白质且与已知蛋白质不同的序列。

在测试的输出中,17%成功抑制了CRISPR功能,其中两个尤为特殊:它们与任何已知蛋白质都没有相似性,甚至使专门用于预测蛋白质三维结构的软件也无法识别其结构。

这表明Evo不仅能够生成预期类型的蛋白质,还能产生完全陌生但功能正常的蛋白质,且这一过程似乎并未考虑蛋白质的结构因素。

规模化应用:1.7万个基因的AI生成

鉴于Evo系统的有效性,研究团队使用约170万个来自细菌及其噬菌体的单个基因作为提示,生成了1200亿个碱基对的AI生成DNA序列。这些序列中包含已知基因,也可能包含真正新颖的物质。虽然目前尚不清楚如何有效利用这一资源,但可以预见,富有创造力的生物学家将找到应用这些数据的创新方法。

局限性与未来展望

值得注意的是,这种方法可能不适用于更复杂的基因组,如人类基因组。脊椎动物等生物通常不将功能相关基因聚类在一起,其基因结构也更为复杂,可能会干扰试图学习碱基频率统计规则的系统。

此外,Evo解决的是不同类型的问题,与那些开发具有特定功能(如降解塑料)酶的有向设计方法有所区别。

尽管如此,这一研究仍然具有重要意义。它首次将寻找功能性蛋白质的问题降至核酸层面,这正是自然进化通常发挥作用的地方。通过AI模拟这一过程,我们不仅能加速蛋白质发现,还能更深入地理解生命进化的基本机制。

蛋白质结构预测 图:AI预测的新型蛋白质结构示意图

这项研究代表了AI与生物学交叉领域的重大突破,为蛋白质工程、药物开发和合成生物学开辟了新的可能性。随着技术的进一步发展,我们可能会见证更多基于AI的生物学创新,这些创新将重新定义我们理解和设计生命系统的方式。