在生物学研究的漫长历程中,蛋白质一直是最受关注的生物大分子之一。它们作为生命活动的主要执行者,几乎参与了细胞内所有的生化反应。然而,传统蛋白质设计方法往往局限于已知蛋白质结构的优化和改造,难以创造出具有全新功能的蛋白质。近日,斯坦福大学研究团队的一项突破性研究,利用人工智能技术成功从细菌基因组中解码并创造出多种前所未见的蛋白质,为蛋白质设计和生物技术领域带来了革命性的可能性。
从蛋白质到基因组的思维转变
传统AI系统在生物学领域的研究主要集中在蛋白质结构预测和功能设计方面。从Google DeepMind的AlphaFold能够准确预测大多数蛋白质的三维结构,到设计具有特定功能的蛋白质如分解聚氨酯的酶,这些成就令人瞩目。然而,这些研究都集中在蛋白质和构建它们的氨基酸层面。

生物学实际上并不直接在蛋白质层面产生新蛋白质,而是通过改变核酸序列,最终在蛋白质水平上体现出来。DNA层面的信息与蛋白质之间存在相当大的距离,包含大量非编码序列、冗余序列以及一定程度的灵活性。因此,学习基因组的组织方式是否能够帮助AI系统理解如何制造功能性蛋白质,这一点并不明显。
斯坦福大学的研究团队另辟蹊径,将研究焦点从蛋白质转向了基因组。他们发现,细菌基因组中一个普遍存在的特征——功能相关基因的聚集分布,为AI系统提供了宝贵的学习素材。在细菌中,执行特定功能(如导入和消化某种糖类、合成某种氨基酸等)所需的所有基因通常在基因组中紧密排列在一起。在许多情况下,所有这些基因会被转录成一条大型信使RNA,使细菌能够一次性调控整个生化通路的活性,提高代谢效率。
Evo基因组语言模型的构建与训练
基于这一观察,研究人员开发了一种他们称之为"基因组语言模型"的系统,命名为Evo。该系统使用了庞大的细菌基因组集合进行训练,训练方式类似于大型语言模型(LLM):Evo被要求预测序列中的下一个碱基,预测正确时获得奖励。同时,Evo也是一个生成式模型,能够根据提示输出具有一定随机性的新序列,即相同的提示可以产生一系列不同的输出。

研究人员认为,这种设置使Evo能够"将核苷酸水平的模式与千碱基尺度的基因组上下文联系起来"。换句话说,如果给它提供一大段基因组DNA作为提示,Evo能够像LLM解释查询一样理解这段DNA,并在基因组意义上产生适当的输出。
训练完成后,Evo已经掌握了细菌基因组的组织规律和功能相关基因的分布特点。这一突破性的模型设计,使得AI系统能够从基因组层面理解蛋白质功能的形成机制,而不仅仅局限于蛋白质结构本身。
从已知到未知:蛋白质预测与生成
为了测试Evo系统的性能,研究人员首先使用已知蛋白质基因片段作为提示,观察Evo能否完成这些序列。在一个实验中,当给定已知蛋白质基因序列的30%时,Evo能够输出剩余85%的序列;当给定80%的序列时,它能够返回所有缺失部分。当从功能基因簇中删除单个基因时,Evo也能正确识别并恢复缺失的基因。
大量训练数据确保了Evo能够正确识别蛋白质中最重要的区域。如果它对序列进行修改,这些修改通常位于蛋白质中允许变异的区域。换句话说,其训练使系统能够融入已知基因变化的进化限制规则。
然而,研究人员的真正目标是测试Evo能否生成全新的蛋白质。为此,他们转向了细菌毒素系统——通常与抗毒素基因一起编码,以防止细胞在激活毒素基因时自我毁灭。自然界中存在大量这类毒素-抗毒素系统,它们作为细菌与竞争对手之间军备竞赛的一部分,进化迅速。
研究团队设计了一种与已知毒素仅有微弱关联且没有已知抗毒素的毒素,将其序列输入Evo作为提示,并过滤掉任何与已知抗毒素基因相似的响应。在测试Evo返回的10个输出中,一半能够减轻某种毒性,其中两个完全恢复了产生毒素的细菌的生长能力。这两个抗毒素与已知抗毒素的序列相似性极低,仅约25%的序列一致性。它们并非简单地将少量已知抗毒素片段拼接而成,而是至少由15-20个不同蛋白质的片段组装而成。在另一项测试中,输出需要从40个已知蛋白质的片段中拼凑而成。
RNA层面的创新:超越蛋白质的生成能力
Evo的成功不仅限于蛋白质生成。当研究团队测试一种具有RNA抑制剂的毒素时,该系统能够输出编码具有正确结构特征的RNA的DNA,即使特定序列与已知序列没有密切关联。
这一发现表明,Evo模型不仅能够生成功能性蛋白质,还能理解并生成具有特定RNA结构的序列,这为RNA技术和基因调控工具的开发提供了新的可能性。RNA作为基因表达调控的关键分子,在许多生物学过程中发挥着重要作用,而Evo在这一领域的成功应用,将进一步拓展AI在分子生物学中的应用范围。
CRISPR抑制剂的全新设计
研究团队还对CRISPR系统的抑制剂进行了类似测试。CRISPR是我们用于基因编辑的技术,但细菌将其进化为抵抗病毒的保护机制。天然存在的CRISPR抑制剂种类繁多,其中许多彼此之间似乎没有关联。研究团队再次过滤输出,只包含编码蛋白质的序列,并排除任何看起来像已知蛋白质的序列。在他们制作蛋白质的输出列表中,17%能够抑制CRISPR功能。其中两个尤为特别,因为它们与任何已知蛋白质都没有相似性,甚至使专门用于预测蛋白质三维结构的软件感到困惑。
换句话说,除了预期类型的输出外,Evo似乎能够输出完全新颖但功能正常的蛋白质,而且它似乎在这样做时完全没有考虑蛋白质的结构。
规模化应用:从单个基因到海量数据
鉴于他们的系统似乎行之有效,研究人员决定用几乎所有东西作为提示:来自细菌及其捕食病毒的170万个独立基因。结果生成了1200亿个碱基对的AI生成DNA,其中一些包含我们已经知道的基因,一些 presumably 包含真正新颖的内容。目前尚不清楚如何有效利用这一资源,但我相信会有一些富有创造力的生物学家会想出办法。
这一规模化的应用展示了Evo模型在生物数据生成方面的巨大潜力。通过生成如此大量的DNA序列,该系统为生物学家提供了探索蛋白质功能多样性的全新资源,可能会发现具有特殊功能的新型蛋白质或分子。
技术局限与未来展望
值得注意的是,这种方法可能不适用于更复杂的基因组,如人类基因组。脊椎动物等生物大多不聚集功能相关的基因,其基因结构也更为复杂,可能会试图学习碱基频率统计规则的系统造成混淆。此外,需要明确的是,它解决了与已开发出消化塑料等有用酶的定向设计努力不同的问题。
尽管如此,这种方法能够奏效本身就已经相当令人惊叹。从概念上讲,它引人入胜,因为它将寻找功能性蛋白质的问题带到了核酸层面,这正是进化通常发挥作用的地方。
这项研究的意义不仅在于技术突破,更在于它改变了我们思考蛋白质设计的方式。传统方法往往基于已知蛋白质结构的优化,而Evo模型则从基因组层面直接生成功能性蛋白质,为蛋白质工程和合成生物学开辟了全新途径。
未来,随着技术的不断发展和完善,我们可能会看到更多基于基因组语言模型的创新应用。从药物开发到生物材料设计,从环境修复到农业改良,这些AI生成的蛋白质有望在多个领域带来革命性的变化。同时,这一研究也为理解蛋白质进化提供了新的视角,帮助我们更好地探索生命的奥秘。
结语
斯坦福大学研究团队开发的Evo基因组语言模型代表了AI在生物学领域应用的一个重要里程碑。通过从细菌基因组中学习,该系统能够生成多种前所未见的功能性蛋白质,包括那些与已知蛋白质结构完全不同的新型蛋白质。这一突破不仅拓展了我们对蛋白质设计可能性的认识,也为生物技术和药物开发提供了全新的工具和方法。随着这一技术的进一步发展和完善,我们有理由期待它在未来带来更多令人兴奋的发现和应用。









