人工智能在生物学领域取得了重大突破,斯坦福大学研究团队开发的"基因组语言模型"Evo能够通过分析细菌基因组,生成一系列前所未见的蛋白质。这一创新方法将蛋白质设计从传统的氨基酸层面提升至核酸层面,为生物技术和药物研发开辟了全新路径。
从蛋白质到基因组的思维转变
传统AI系统在生物学领域主要关注蛋白质及其氨基酸组成,成功实现了蛋白质结构预测和功能设计。然而,生物系统实际上是在核酸层面产生变化的,这些变化最终通过蛋白质体现出来。DNA层面的信息与蛋白质之间存在显著距离,包含大量非编码序列、冗余性和相当的灵活性。
"生物学不会直接在蛋白质层面产生新蛋白质,"研究人员解释道,"变化必须发生在核酸层面,最终通过蛋白质表现出来。"
基因组语言模型Evo的诞生
斯坦福大学团队开发的Evo模型基于细菌基因组的一个关键特征:功能相关基因的聚类现象。细菌通常将执行特定功能所需的所有基因(如导入和消化糖类、合成氨基酸等)排列在基因组中相邻位置。在许多情况下,所有基因被转录为单个大型信使RNA,使细菌能够同时控制整个生化通路的活性,提高代谢效率。

Evo的训练过程类似于大型语言模型,通过预测序列中的下一个碱基并获得奖励来进行学习。作为一个生成式模型,Evo可以根据提示输出具有一定随机性的新序列,同一提示可以产生不同的输出结果。
"这种设置使Evo能够将核苷酸水平的模式与千碱基尺度的基因组上下文联系起来,"研究人员表示,"换句话说,如果您给它提供一大段基因组DNA作为提示,Evo会像LLM解释查询一样进行解读,并在基因组意义上产生适当的输出。"
测试Evo的预测能力
研究人员首先测试了Evo预测已知蛋白质序列的能力。在一个实验中,当给予已知蛋白质基因序列的30%时,Evo能够输出剩余85%的序列;当给予80%的序列时,它能够返回所有缺失部分。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失基因。
大量训练数据确保了Evo能够正确识别蛋白质中最重要的区域。如果对序列进行修改,这些修改通常位于蛋白质中允许变异的区域。换句话说,其训练使系统能够融入已知基因变化的进化限制规则。
创造全新蛋白质
在确认Evo的预测能力后,研究人员转向测试其创造新蛋白质的能力。他们使用细菌毒素作为测试对象,这些毒素通常与抗毒素一起编码,防止细胞在激活基因时自我毁灭。
团队开发了一种与已知毒素仅有微弱关联且无已知抗毒素的毒素,并将其序列提供给Evo作为提示。同时,他们排除了任何与已知抗毒素基因相似的响应。
在测试Evo返回的10个输出中,有5个能够缓解部分毒性,其中2个完全恢复了产生毒素的细菌的生长能力。这两种抗毒素与已知抗毒素的序列相似度极低,仅约25%。它们并非简单地将少量已知抗毒素片段拼接而成,而是至少由15-20个不同蛋白质的部分组装而成。在另一项测试中,输出需要由40个已知蛋白质的部分拼接而成。
RNA结构设计能力
Evo的成功不仅限于蛋白质。当测试一种具有RNA抑制剂的毒素时,该系统能够输出编码具有正确结构特征的RNA的DNA,即使特定序列与任何已知序列没有密切关联。
CRISPR抑制剂的突破
团队还对CRISPR系统的抑制剂进行了类似测试。CRISPR抑制剂自然存在且非常多样化,其中许多似乎彼此无关。团队筛选输出结果,只编码蛋白质并排除任何已知蛋白质。在他们制造的蛋白质列表中,17%成功抑制了CRISPR功能。其中两种尤为独特,它们与任何已知蛋白质都没有相似性,甚至混淆了旨在预测蛋白质三维结构的软件。
这表明,除了预期类型的输出外,Evo似乎能够输出完全新颖且功能正常的蛋白质,而且似乎在不考虑蛋白质结构的情况下做到了这一点。
大规模基因生成
鉴于该系统似乎有效,研究人员决定用几乎所有东西作为提示:来自细菌及其捕食病毒的170万个独立基因。结果产生了1200亿个碱基对的AI生成DNA,其中一些包含已知的基因,一些可能包含真正新颖的内容。
"目前尚不清楚如何有效利用这一资源,"研究人员表示,"但我相信会有一些富有创造力的生物学家能想出办法。"
局限性与未来展望
研究人员指出,这种方法可能不适用于更复杂的基因组,如人类基因组。脊椎动物等生物大多不聚类功能相关基因,其基因结构更为复杂,可能会试图学习碱基频率统计规则的系统感到困惑。
尽管如此,这种方法能够成功工作本身就已经令人惊叹。从概念上讲,它很有趣,因为它将寻找功能蛋白质的问题归结到核酸层面,这正是进化通常发挥作用的地方。

这项研究代表了人工智能与生物学交叉领域的重大进展,不仅展示了AI在理解复杂生物系统方面的潜力,还为蛋白质设计和生物技术应用提供了全新思路。随着技术的进一步发展,这种方法可能会催生更多创新性的生物医学解决方案和工业应用。









