在人工智能与生物学交叉领域,一项突破性研究正在改变我们设计和创造蛋白质的方式。斯坦福大学研究团队开发的"基因组语言模型"Evo,通过学习细菌基因组中的基因簇规律,成功生成了多种具有功能性的全新蛋白质,这些蛋白质与已知蛋白质结构迥异,却能有效执行特定功能。
从蛋白质到基因:AI设计的全新路径
传统的AI系统在生物学领域取得了显著成就,特别是在预测蛋白质结构和设计具有特定功能的蛋白质方面。然而,这些方法都集中在蛋白质和氨基酸层面,而忽视了生物学创造新蛋白质的真正起点——核酸水平。
生物学中,新蛋白质的产生并非直接在蛋白质层面发生,而是首先需要核酸(DNA或RNA)发生变化,这些变化最终通过蛋白质表达出来。DNA层面的信息与蛋白质之间存在较大距离,包含大量非编码序列、冗余结构和一定的灵活性。因此,学习基因组的组织方式是否能帮助AI系统设计功能性蛋白质,这一问题并不明确。

基因组语言模型:Evo的诞生
斯坦福大学研究团队开发的Evo模型,基于细菌基因组的一个关键特征:功能相关基因的聚集现象。在细菌基因组中,执行特定功能(如糖类摄取与消化、氨基酸合成等)所需的所有基因通常聚集在一起,许多情况下这些基因会被转录为单个大型信使RNA。这种组织方式使细菌能够同时调控整个生化途径的活动,提高代谢效率。
Evo模型使用大量细菌基因组进行训练,其训练方式类似于大型语言模型:Evo被要求预测序列中的下一个碱基,预测正确时获得奖励。它也是一个生成式模型,能够根据提示输出具有一定随机性的新序列,同一提示可产生多种不同的输出。
研究人员认为,这种设置使Evo能够"将核苷酸水平的模式与千碱基尺度的基因组背景联系起来"。换句话说,如果给它提供一大段基因组DNA作为提示,Evo能够像LLM解释查询一样理解它,并在基因组意义上生成适当的输出。
测试与验证:从已知到未知
研究人员首先测试了Evo完成已知基因片段的能力。例如,当给定已知蛋白质基因序列的30%时,Evo能够输出剩余85%的序列;当给定80%的序列时,它能返回所有缺失部分。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失基因。
大量训练数据确保了Evo能正确识别蛋白质最重要的区域。如果它对序列进行修改,这些修改通常位于蛋白质中允许变异的区域。换句话说,其训练使系统能够融入已知基因变化的进化限制规则。

创新性突破:生成全新功能性蛋白质
真正的突破出现在研究人员测试Evo生成全新蛋白质的能力时。他们使用细菌毒素作为提示,这些毒素通常与抗毒素基因一起编码,防止细菌在激活基因时自我毁灭。自然界中存在大量这样的例子,它们作为细菌与竞争对手军备竞赛的一部分迅速进化。
研究团队开发了一种与已知毒素只有微弱关联且无已知抗毒素的毒素,将其序列提供给Evo作为提示,并过滤掉任何与已知抗毒素基因相似的响应。测试Evo返回的10个输出中,一半能够挽救部分毒性,其中两个完全恢复了产生毒素的细菌的生长能力。这两个抗毒素与已知抗毒素的序列相似度极低,仅约25%。它们并非简单地将少量已知抗毒素片段拼接而成,至少似乎是由15-20个不同蛋白质的片段组装而成。在另一项测试中,输出需要由40个已知蛋白质的片段拼接而成。
Evo的成功不仅限于蛋白质。当测试具有RNA抑制剂的另一种毒素时,该系统能够编码具有正确结构特征的RNA,即使特定序列与已知序列没有密切关联。
CRISPR系统抑制剂的生成
研究团队还对CRISPR系统抑制剂进行了类似测试。CRISPR是我们用于基因编辑的工具,但细菌进化出它作为防御病毒的一种形式。天然存在的CRISPR抑制剂非常多样化,其中许多似乎彼此无关。同样,研究团队过滤输出,仅包含编码蛋白质的部分,并排除任何看起来像已知蛋白质的蛋白质。在制成的蛋白质列表中,17%能够抑制CRISPR功能。其中两个与众不同,因为它们与任何已知蛋白质都没有相似性,并且使专门用于预测蛋白质三维结构的软件感到困惑。
换句话说,除了预期的输出类型外,Evo似乎能够输出完全全新但功能正常的蛋白质,而且它似乎在不考虑蛋白质结构的情况下做到了这一点。
巨大潜力与挑战
鉴于该系统似乎有效,研究人员决定用几乎所有东西提示它:来自细菌及其捕食病毒的170万个独立基因。结果是1200亿个碱基对的AI生成DNA,其中一些包含我们已经知道的基因,一些可能包含真正新颖的内容。
然而,这种方法是否适用于更复杂的基因组(如人类基因组)尚不清楚。脊椎动物等生物体大多不将功能相关基因聚集在一起,它们的基因结构更为复杂,可能会试图学习碱基频率统计规则的系统感到困惑。此外,需要明确的是,它解决了与开发具有消化塑料等有用功能的酶的定向设计努力不同的问题。
尽管如此,这种方法能够工作本身就已经相当令人惊叹。从概念上讲,它很有趣,因为它将寻找功能性蛋白质的问题带到了核酸层面,这是进化通常发挥作用的地方。
未来展望
这项研究为生物技术和药物研发开辟了全新路径。通过直接从核酸层面设计功能性蛋白质,研究人员可以绕过传统蛋白质结构预测的限制,探索更广阔的蛋白质功能空间。这种方法有望加速新型酶、药物靶点和治疗蛋白的开发,为解决人类面临的健康和环境挑战提供新工具。
随着AI技术的不断进步,我们可以期待看到更多基于基因组语言模型的创新应用。这些系统可能会帮助科学家理解基因调控的复杂机制,预测基因突变的影响,甚至设计全新的生命形式。然而,这也带来了伦理和安全方面的挑战,需要科学家和政策制定者共同面对和解决。
结论
斯坦福大学开发的Evo基因组语言模型代表了AI在生物设计领域的重大突破。通过学习细菌基因组的组织规律,该系统能够生成多种具有功能性的全新蛋白质,这些蛋白质与已知蛋白质结构迥异却能有效执行特定功能。这一研究不仅展示了AI在解决生物学复杂问题上的潜力,也为未来生物技术的发展提供了新思路。随着技术的不断完善,我们有理由期待AI将在创造全新蛋白质和解决生物学难题方面发挥越来越重要的作用。









