在生物技术领域,人工智能正在以前所未有的速度推动着科学突破。最近,斯坦福大学研究团队开发出一种名为"Evo"的基因组语言模型,该模型通过学习细菌基因组的组织规律,成功生成了一系列前所未见的功能性蛋白质。这一突破不仅拓展了AI在生物领域的应用边界,更为蛋白质设计和生物技术带来了革命性可能。
从蛋白质到基因:AI应用的新维度
传统上,AI系统在生物学领域的成功主要集中在蛋白质结构与功能的关系上。从预测蛋白质结构到设计具有特定功能的蛋白质,这些技术已经取得了显著进展。然而,这些方法都集中在蛋白质和构成它们的氨基酸层面,而忽略了生物学中更基础的一环——核苷酸序列。
生物学中,新蛋白质的产生并非直接在蛋白质层面发生,而是首先需要核苷酸序列的变化,这些变化最终通过蛋白质表达体现出来。DNA层面的信息与蛋白质之间存在相当的距离,包含大量非编码序列、冗余性和一定的灵活性。因此,学习基因组的组织方式是否能帮助AI系统理解如何制造功能性蛋白质,这一点并不明显。
基因组语言模型:Evo的诞生
斯坦福大学研究团队开发的Evo模型,巧妙地利用了细菌基因组的一个共同特征:功能相关基因的聚集。在细菌中,执行特定功能所需的所有基因——如糖的消化和吸收、氨基酸合成等——通常在基因组中紧密排列。在许多情况下,所有基因被转录成一条单一的大信使RNA,使细菌能够同时控制整个生化途径的活性,提高代谢效率。

研究人员利用庞大的细菌基因组集合训练了Evo模型,其训练方式类似于大型语言模型:Evo被要求预测序列中的下一个碱基,预测正确时获得奖励。同时,Evo也是一个生成式模型,可以根据提示输出具有一定随机性的新序列,同一提示可以产生一系列不同的输出。
研究人员认为,这种设置使Evo能够"将核苷酸水平的模式与千碱基尺度的基因组背景联系起来"。换句话说,如果给它提供一大段基因组DNA作为提示,Evo可以像LLM解释查询一样理解它,并在基因组意义上生成适当的输出。
测试与验证:从已知到未知
为了测试系统,研究人员首先使用已知蛋白质基因片段作为提示,确定Evo能否完成这些序列。在一个例子中,如果给出已知蛋白质基因序列的30%,Evo能够输出剩余85%的序列;当给出80%的序列时,它能返回所有缺失部分。当从功能簇中删除单个基因时,Evo也能正确识别并恢复缺失的基因。
大量训练数据确保了Evo正确识别了蛋白质最重要的区域。如果它对序列进行修改,这些修改通常位于蛋白质中允许变异的区域。换句话说,其训练使系统能够纳入已知基因变化的进化限制规则。
创新性测试:毒素与抗毒素
研究人员决定测试Evo生成全新蛋白质的能力。他们使用细菌毒素作为测试对象,这些毒素通常与抗毒素一起编码,防止细菌在激活基因时自杀。团队开发了一种与已知毒素仅有微弱关联且无已知抗毒素的毒素,将其序列提供给Evo作为提示,并过滤掉任何与已知抗毒素基因相似的响应。
在测试Evo返回的10个输出中,一半能够挽救部分毒性,其中两个完全恢复了产生毒素的细菌的生长能力。这两种抗毒素与已知抗毒素的序列相似度极低,仅约25%。它们并非简单地将少量已知抗毒素片段拼接而成,而是至少由15-20个不同蛋白质的片段组装而成。在另一项测试中,输出需要由40个已知蛋白质的片段拼接而成。

RNA结构预测能力
Evo的成功不仅限于蛋白质。当测试另一种带有RNA抑制剂的毒素时,系统能够输出编码具有正确结构特征的RNA的DNA,即使特定序列与已知序列没有密切关联。
全新蛋白质的诞生:CRISPR系统抑制剂
研究团队对CRISPR系统的抑制剂进行了类似测试。CRISPR是我们用于基因编辑的工具,但细菌将其进化为对抗病毒的保护机制。天然存在的CRISPR抑制剂非常多样化,其中许多似乎彼此无关。团队过滤了输出,只保留编码蛋白质且与已知蛋白质不同的序列。在他们制作蛋白质的输出列表中,17%成功抑制了CRISPR功能。其中两种尤为独特,因为它们与任何已知蛋白质都没有相似性,甚至使专门用于预测蛋白质三维结构的软件感到困惑。
换句话说,除了预期的输出类型外,Evo似乎能够输出完全全新的功能性蛋白质,而且它似乎完全不考虑蛋白质的结构。
规模化应用:海量基因数据的处理
鉴于系统似乎有效,研究人员决定用几乎所有东西作为提示:来自细菌及其捕食病毒的170万个独立基因。结果是产生了1200亿个碱基对的AI生成DNA,其中包含一些已知的基因,一些可能包含真正新颖的内容。目前尚不清楚如何有效利用这一资源,但可以想象会有一些富有创造力的生物学家想出办法。
局限性与未来展望
值得注意的是,这种方法可能不适用于更复杂的基因组,如人类基因组。脊椎动物等生物很少将功能相关的基因聚集在一起,它们的基因结构更为复杂,可能会试图学习碱基频率统计规则的系统感到困惑。此外,需要明确的是,它解决了与开发有用酶(如消化塑料的酶)的定向设计不同的问题。
尽管如此,这种方法能够奏效本身就已经令人惊叹。从概念上讲,它很有趣,因为它将寻找功能性蛋白质的问题降到了核苷酸层面,这正是进化通常发挥作用的地方。
技术原理与科学意义
Evo模型的核心创新在于它将AI应用从蛋白质结构预测延伸到了基因序列层面。传统方法通常关注蛋白质的三维结构如何决定其功能,而Evo则从基因组的组织规律出发,理解基因簇的进化逻辑和功能关联。
这种方法的优势在于:
- 进化视角:通过学习大量细菌基因组的进化模式,Evo能够捕捉到自然选择在基因序列上的印记。
- 功能关联:利用细菌基因组中功能相关基因聚集的特点,Evo能够预测基因簇中可能存在但尚未发现的功能元件。
- 生成能力:不仅能够预测已知序列,还能生成具有全新功能的蛋白质序列。
应用前景与挑战
生物技术应用
- 药物开发:Evo可以生成具有特定生物活性的蛋白质,为药物开发提供新的候选分子。
- 酶工程:能够设计出降解新型污染物的酶,如文中提到的消化塑料的酶。
- 抗菌策略:通过设计新型抗毒素,可以帮助开发针对耐药菌的新疗法。
技术挑战
- 复杂性限制:目前方法主要适用于细菌等简单基因组,对真核生物复杂基因组的适用性有限。
- 功能验证:AI生成的蛋白质需要大量实验验证其功能和安全性。
- 伦理考量:随着AI设计生物能力的增强,相关的伦理和安全问题也需要被认真考虑。
结论:AI与生物学的融合新篇章
Evo模型的开发代表了AI与生物学融合的新篇章。它展示了人工智能不仅能够理解和预测生物系统,还能够参与创造全新的生物功能。这一突破为生物技术、药物开发和合成生物学开辟了全新的可能性。
随着技术的不断进步,我们可以期待看到更多基于AI的蛋白质设计工具的出现,它们将能够处理更复杂的基因组,设计出具有更精确功能的蛋白质。这不仅将加速科学发现的进程,还将为解决人类面临的健康、环境等重大挑战提供新的工具和方法。
在可预见的未来,AI驱动的蛋白质设计将成为生物技术领域的关键技术之一,它将帮助科学家们以前所未有的速度和精度探索生命的奥秘,并创造具有特定功能的新型生物分子。这不仅是对我们理解生命本质的贡献,也是对人类利用和改造生命能力的扩展。











