基因组AI:超越蛋白质结构预测的新领域
近年来,人工智能系统在生物学领域取得了显著突破,特别是在蛋白质结构与功能关系的研究方面。从预测大多数蛋白质的三维结构,到设计具有特定功能的蛋白质,AI技术已经展现出强大能力。然而,这些突破大多集中在蛋白质及其氨基酸组成层面,而非生物体产生新蛋白质的根本源头——核酸。
生物体并非直接在蛋白质层面产生变化,而是在核酸层面发生改变,这些改变最终通过蛋白质功能体现出来。DNA层面的信息与蛋白质之间存在较大距离,包含大量非编码序列、冗余结构和相当程度的灵活性。因此,学习基因组的组织方式是否能帮助AI系统设计出功能性蛋白质,这一问题并不明确。
最新研究表明,利用细菌基因组训练AI系统,不仅能预测蛋白质,还能生成一些我们从未见过的全新蛋白质,这一发现标志着AI在生物学应用领域的重大突破。
基因组模型的训练原理
这项突破性研究由斯坦福大学的一个小型研究团队完成。其核心在于利用细菌基因组中一个普遍存在的特征:功能相关基因的聚集现象。在细菌中,执行特定功能(如糖类消化、氨基酸合成等)所需的所有基因往往在基因组中紧密相邻排列。在许多情况下,这些基因会被转录为一条大型信使RNA,使细菌能够同时调控整个生化通路的活性,提高代谢效率。
基于这一特点,研究人员开发了一种称为"Evo"的"基因组语言模型",使用大量细菌基因组进行训练。训练方式类似于大型语言模型:Evo被要求预测序列中的下一个碱基,预测正确时获得奖励。同时,Evo也是一个生成式模型,能够根据提示输出具有一定随机性的新序列——相同的提示可以产生一系列不同的输出。
研究人员认为,这种设置使Evo能够"连接核苷酸水平模式与千碱基尺度的基因组上下文"。换句话说,如果给它提供一大段基因组DNA作为提示,Evo能够像LLM解释查询一样理解这段信息,并输出在基因组学意义上适合该提示的序列。
从已知基因到全新蛋白质的生成
研究团队首先测试了Evo完成已知基因片段的能力。例如,当提供已知蛋白基因序列的30%时,Evo能够输出其余85%的序列;当提供80%的序列时,它能补全所有缺失部分。当功能簇中缺失单个基因时,Evo也能正确识别并恢复缺失基因。
大量训练数据确保Evo能够正确识别蛋白质最关键的区域。如果它对序列进行修改,通常发生在蛋白质中允许变异的区域。换句话说,其训练使系统能够整合已知基因变化的进化规则限制。
当研究人员测试Evo生成全新序列的能力时,他们使用了细菌毒素作为起点。毒素通常与抗毒素基因一起编码,防止细胞在激活基因时自我毁灭。自然界中存在大量此类例子,它们在细菌与竞争对手的"军备竞赛"中快速进化。
研究团队开发了一种与已知毒素仅有微弱关联且无已知抗毒素的毒素序列,将其作为提示输入Evo,并过滤掉任何与已知抗毒素基因相似的响应。在测试Evo输出的10个序列中,有5个能够部分缓解毒性,其中2个完全恢复了生产毒素的细菌的生长能力。这两种抗毒素与已知抗毒素的序列相似度极低,仅为约25%。它们并非简单地将少数已知抗毒素片段拼接而成,而是至少由15-20个不同蛋白质的部分组装而成。在另一项测试中,输出需要由40个已知蛋白质的部分拼接而成。
Evo的成功不仅限于蛋白质。当测试一种具有RNA抑制剂的毒素时,系统能够编码具有正确结构特征的RNA,即使特定序列与已知序列没有密切关联。
全新蛋白质的发现与验证
研究团队对CRISPR系统抑制剂进行了类似测试。CRISPR是我们用于基因编辑的工具,但细菌将其进化为抵御病毒的保护机制。天然存在的CRISPR抑制剂非常多样化,许多似乎彼此无关。团队再次过滤输出,仅保留编码蛋白质的序列,并排除任何与已知蛋白质相似的序列。
在制成的蛋白质列表中,17%成功抑制了CRISPR功能。其中两种尤为独特,因为它们与任何已知蛋白质都没有相似性,甚至能够迷惑专门预测蛋白质三维结构的软件。
简而言之,除了预期的输出类型外,Evo似乎能够输出完全新颖但功能正常的蛋白质,而且这一过程似乎完全没有考虑蛋白质的结构。
大规模基因组探索与未来应用
鉴于该系统的有效性,研究人员决定用几乎所有可能的序列作为提示:来自细菌及其捕食病毒的170万个独立基因。结果生成了1200亿个碱基对的AI生成DNA,其中包含已知基因,也可能包含真正新颖的内容。
目前尚不清楚如何有效利用这一资源,但可以想象,一些富有创造力的生物学家会想出应用方法。
这种方法是否适用于更复杂的基因组(如人类基因组)尚不明确。脊椎动物等生物体通常不聚集功能相关的基因,其基因结构也更为复杂,可能会试图学习碱基频率统计规则的系统造成混淆。此外,需要明确的是,这种方法与已开发出具有消化塑料等有用功能的酶的定向设计解决的是不同问题。
尽管如此,这种方法能够成功运作本身就令人惊叹。从概念上讲,它引人入胜,因为它将寻找功能性蛋白质的问题降到了核酸层面,这正是进化通常发挥作用的地方。
这项研究不仅展示了AI在生命科学领域的潜力,也为药物开发、生物工程和合成生物学开辟了全新途径。随着技术的进一步发展,我们可能会看到更多基于AI设计的蛋白质进入实际应用,为人类健康和环境保护带来革命性变化。











