在生物技术领域,人工智能正以前所未有的速度推动着科学边界。最近,斯坦福大学研究团队开发出一种基于细菌基因组训练的AI系统,成功创造出了一系列自然界中从未见过的功能性蛋白质。这一突破不仅挑战了我们对蛋白质设计的传统认知,更为药物研发、生物材料开发等领域开辟了全新可能性。
从蛋白质到基因组的AI革命
近年来,AI系统在生物学领域取得了显著成就,特别是在蛋白质结构与功能关系方面。从预测蛋白质三维结构到设计具有特定功能的蛋白质,AI技术已经展现出强大能力。然而,这些努力大多集中在蛋白质和氨基酸层面,而忽略了生物学中更根本的核酸层面。
"生物学并不直接在蛋白质层面产生新蛋白质,"研究团队负责人解释道,"变化必须首先发生在核酸层面,然后才通过蛋白质表现出来。"DNA信息与蛋白质之间存在相当大的距离,包含大量非编码序列、冗余机制和一定的灵活性。因此,学习基因组的组织方式能否帮助AI系统设计功能性蛋白质,这一问题并不明确。
基因组语言模型Evo的诞生
研究团队开发的"基因组语言模型"Evo,基于细菌基因组中一个普遍存在的特征:功能相关基因的聚集现象。细菌通常将执行特定功能所需的基因——如导入和消化糖类、合成氨基酸等——在基因组中紧密排列在一起。在许多情况下,所有基因被转录成一条大型信使RNA,使细菌能够同时控制整个生化通路的活性,提高代谢效率。

Evo的训练方式类似于大型语言模型,系统被要求预测序列中的下一个碱基,预测正确时获得奖励。同时,Evo也是一个生成式模型,可以根据提示输出具有随机性的新序列,同一提示可产生多种不同的输出。
"这种设置使Evo能够将核苷酸水平的模式与千碱基尺度的基因组背景联系起来,"研究人员表示,"换句话说,如果你给它提供一大段基因组DNA作为提示,Evo会像LLM解释查询一样理解它,并在基因组意义上生成适当的输出。"
测试Evo的蛋白质生成能力
研究团队首先测试了Evo预测已知蛋白质序列的能力。当提供已知蛋白质基因序列的30%时,Evo能够输出剩余85%的序列;当提供80%的序列时,系统可以补全所有缺失部分。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失基因。
大量训练数据确保了Evo能正确识别蛋白质中最重要的区域。如果对序列进行修改,通常发生在蛋白质中允许变异的区域。换句话说,其训练使系统能够纳入已知基因变化的进化规则限制。
创造全新蛋白质的突破
为了测试Evo生成全新蛋白质的能力,研究团队转向细菌毒素研究。细菌毒素通常与抗毒素基因共同编码,防止细胞在激活基因时自我毁灭。自然界中存在大量此类例子,它们在细菌与竞争对手的军备竞赛中快速进化。
研究团队开发了一种与已知毒素仅有微弱关联且无已知抗毒素的毒素,将其序列作为提示输入Evo,并过滤掉任何与已知抗毒素基因相似的响应。在测试Evo返回的10个输出中,一半能够缓解某种毒性,其中两个完全恢复了产生毒素的细菌的生长能力。这两个抗毒素与已知抗毒素的序列相似性极低,仅约25%的序列一致性。
更令人惊讶的是,这些抗毒素并非简单地将少数已知抗毒素片段拼接而成;它们至少由15-20个不同蛋白质的部分组装而成,而在另一项测试中,输出需要由40个已知蛋白质的部分拼接而成。
Evo的成功不仅限于蛋白质。当测试另一种具有RNA抑制剂的毒素时,系统能够输出编码具有正确结构特征的RNA的DNA,即使特定序列与任何已知序列都不密切相关。
完全陌生的蛋白质设计
研究团队对CRISPR系统抑制剂进行了类似测试。CRISPR是我们用于基因编辑的技术,但细菌将其进化为抵御病毒的保护机制。自然存在的CRISPR抑制剂多样性极高,其中许多似乎彼此无关。团队再次过滤输出,只保留编码蛋白质的序列,并排除任何看起来像已知蛋白质的序列。

在从输出列表中制造的蛋白质中,17%成功抑制了CRISPR功能。其中两个尤为独特,它们与任何已知蛋白质都没有相似性,甚至使专门用于预测蛋白质三维结构的软件感到困惑。
换句话说,除了预期的输出类型外,Evo似乎能够输出完全新颖但功能正常的蛋白质,而且似乎没有考虑蛋白质的结构。
巨大潜力与应用前景
鉴于该系统似乎有效,研究团队决定用几乎所有可能的基因作为提示:来自细菌及其捕食病毒的170万个独立基因。结果生成了1200亿个碱基对的AI生成DNA,其中包含一些已知的基因,也可能包含真正新颖的内容。
"目前尚不清楚如何有效利用这一资源,"研究人员表示,"但我可以想象,会有一些富有创造力的生物学家想出一些应用方法。"
这一技术为药物研发、生物材料合成、酶设计等领域提供了全新工具。例如,研究人员可以利用Evo设计能够降解新型塑料的酶,或开发针对耐药菌的新型抗生素。
技术局限与未来发展方向
研究人员指出,这种方法可能不适用于更复杂的基因组,如人类基因组。脊椎动物等生物大多不聚集功能相关的基因,其基因结构也更为复杂,可能会试图学习碱基频率统计规则的系统感到困惑。
"需要明确的是,它解决了与定向设计不同的问题,"研究人员解释道,"那些设计已经开发出具有消化塑料等有用功能的酶。"
尽管如此,这种方法能够奏效本身就已经相当令人惊叹。从概念上讲,它很有趣,因为它将寻找功能性蛋白质的问题带到了核酸层面,这正是进化通常发挥作用的地方。
未来,研究团队计划扩展Evo的应用范围,探索其在真核生物基因组中的应用,并进一步优化算法以提高生成蛋白质的功能性和特异性。随着技术的不断进步,我们有理由相信,AI将在生物设计和药物发现领域发挥越来越重要的作用。
结语
斯坦福大学开发的基因组语言模型Evo代表了AI在生物设计领域的重大突破。通过学习细菌基因组的组织规律,Evo不仅能够预测已知蛋白质,还能创造出自然界中从未存在过的功能性蛋白质。这一技术为解决人类面临的健康、环境和能源挑战提供了全新思路,展示了AI与生物学交叉融合的巨大潜力。随着技术的不断完善和应用场景的拓展,我们有理由期待更多令人惊喜的发现和创新应用的出现。









