AI设计的蛋白质:生物安全领域的零日漏洞与未来挑战

1

引言:AI与蛋白质设计的交汇

人工智能技术在生物领域的应用正以前所未有的速度发展,特别是在蛋白质设计方面。AI工具使得设计复杂的三维蛋白质结构变得前所未有的简单。然而,这一技术进步也带来了新的安全挑战。最新研究表明,现有的生物威胁筛查系统可能存在一个'零日漏洞'——无法有效识别出AI设计的危险蛋白质变体。这一发现引发了科学界对生物安全防护体系的重新审视,也让我们不得不思考:在技术飞速发展的同时,我们如何确保生物安全?

生物威胁筛查系统的现状

生物威胁的多样性与共同起点

生物威胁形式多样,包括病毒、细菌等病原体,以及蛋白质类毒素(如2003年寄往白宫的蓖麻毒素)和通过酶促反应产生的化学毒素(如与赤潮相关的分子)。尽管这些威胁形态各异,但它们都源于同一基本生物学过程:DNA转录为RNA,然后用于合成蛋白质。

DNA合成与筛查流程

过去几十年中,通过在线订购DNA序列启动这一过程变得异常简单。然而,认识到潜在威胁后,政府和行业合作在每份订单中添加了筛查步骤:DNA序列会被扫描,以确定其是否编码被视为威胁的蛋白质或病毒部分。任何阳性结果都会被标记,供人工评估是否构成真正的危险。

筛查技术的演进

多年来,蛋白质清单和筛查技术的复杂性都在不断更新。例如,最初的筛查基于与目标DNA序列的相似性。但由于许多DNA序列可以编码相同的蛋白质,筛查算法已相应调整,能够识别出构成相同威胁的所有DNA变体。

AI蛋白质设计带来的新挑战

从序列相似性到功能相似性

新研究可以看作是对这一威胁的扩展。不仅多个DNA序列可以编码相同的蛋白质,多个蛋白质也能执行相同功能。例如,要形成毒素,通常需要蛋白质采用正确的三维结构,使蛋白质中的几个关键氨基酸彼此靠近。然而,在这些关键氨基酸之外,情况往往相当灵活。一些氨基酸可能完全不重要;蛋白质中的其他位置可能适用于任何带正电荷的氨基酸或任何疏水性氨基酸。

AI在蛋白质设计中的优势

过去,进行实验以确定氨基酸链在保持功能的同时可以承受哪些变化,可能极其耗时且昂贵。但新分析背后的团队认识到,AI蛋白质设计工具现已相当成熟,可以预测远缘序列何时能折叠成相同形状并催化相同反应。尽管这个过程仍有错误,通常需要测试十多个或更多提议的蛋白质才能获得一个有效的,但它已经取得了一些令人印象深刻的成功。

零日漏洞的发现

基于这一认识,研究团队提出了一个假设进行测试:AI可以获取现有毒素,设计出具有相同功能的蛋白质,且该蛋白质与原毒素的亲缘关系足够远,以至于筛查程序无法检测到编码它的DNA订单。测试结果证实了这一风险,表明危险蛋白质变体可能绕过现有筛查软件,这种情况被视为相当于零日漏洞。

研究方法与发现

从蓖麻毒素到大规模测试

研究团队首先进行了基本测试:使用AI工具设计蓖麻毒素的变体,然后测试用于筛查DNA订单的软件。测试结果表明存在风险,随后研究人员将方法扩展到更大范围的毒性蛋白质,从72种毒素开始,使用三个开源AI软件包生成了约75,000个潜在蛋白质变体。

功能性蛋白质的筛选挑战

面对如此大量的设计,逐一测试其功能是不现实的。相反,研究人员使用两种基于软件的工具评估每个设计:一种关注蛋白质整体预测物理结构之间的相似性,另一种查看单个氨基酸位置之间的预测差异。这些工具是对两种氨基酸链形成的蛋白质相似程度的粗略近似,但并不能明确指示这两种蛋白质是否具有同等功能。

筛查软件的性能差异

将所有75,000个设计的DNA序列输入用于筛查DNA订单的软件后,研究人员发现四种筛查程序标记这些变体设计为威胁的能力存在巨大差异。其中两个表现良好,一个表现中等,另一个则让大部分设计通过。三个软件包根据这一性能进行了更新,显著提高了其识别变体的能力。

结构相似性与筛查效果

所有四个筛查软件包都有一个明显趋势:变体与原始毒素在结构上越接近,软件包(更新前后)就越有可能将其标记为威胁。在所有情况下,都有一组不太可能折叠成类似结构的变体设计,这些通常不会被标记为威胁。

结果分析与实际威胁评估

预测结构的局限性

需要强调的是,这一评估基于预测的结构;'不太可能'折叠成与原始毒素类似的结构并不意味着这些蛋白质作为毒素会失去活性。功能性蛋白质在这组设计中可能非常罕见,但可能仍有少数几个存在。这少数几个蛋白质也可能足够罕见,以至于必须设计和测试大量设计才能找到一个有效的,这使得这种攻击方式不切实际。

筛查漏洞的实际影响

同时,也有一些与毒素结构非常相似但未被软件标记的蛋白质。对于三个修补过的软件版本,在'非常相似'类别中,未被筛查出来的约占1%到3%。虽然这不理想,但可能足够好,以至于任何试图通过这种方法订购毒素的团体都会引起注意,因为他们必须订购50多个才能有良好机会找到一个绕过筛查的,这会引发各种警报。

问题范围的集中性

另一个显著结果是,未被标记的设计主要是少数几种毒素蛋白质的变体。因此,这更像是筛查软件的一小组特定问题,而非普遍问题。值得注意的是,产生大量未标记变体的蛋白质之一本身并不具有毒性;相反,它是实际毒素发挥作用的必要辅因子。因此,一些筛查软件甚至没有将原始蛋白质标记为危险,更不用说其任何变体了。

未来展望与应对策略

技术进步的双刃剑

尽管这项研究本身目前并未构成重大威胁,但它是有价值的,因为它促使筛查软件的开发人员开始思考新兴威胁。正如这项研究背后的团队所指出的,AI蛋白质设计仍处于早期阶段,我们可能会看到显著改进。同时,我们能够筛查的内容可能存在限制。

全新功能蛋白质的出现

我们目前已经达到AI蛋白质设计工具可以创造具有全新功能的蛋白质的程度,而且无需从现有蛋白质的变体开始。换句话说,我们可以设计出基于与已知威胁的相似性无法筛查的蛋白质,因为它们与我们已知的任何危险物质看起来完全不同。

更复杂的未来挑战

蛋白质类毒素将非常难以设计,因为它们必须穿过细胞膜,然后在内部做危险的事情。虽然AI工具目前可能无法设计出如此复杂的东西,但我不会排除它们最终达到这种复杂程度的可能性。

生物安全防护的必要更新

多层次防护体系的构建

面对AI蛋白质设计带来的挑战,生物安全防护需要构建多层次体系。除了更新DNA筛查软件外,还应加强对蛋白质合成实验室的监管,完善生物安全审查机制,并建立国际合作框架,共同应对新兴生物威胁。

技术与政策的协同发展

生物安全防护不仅需要技术创新,还需要政策支持。政府应制定前瞻性法规,平衡生物技术发展与安全风险防范,同时鼓励负责任的创新,确保科技进步不会带来不可控的安全隐患。

科研伦理与透明度

在推动AI蛋白质设计研究的同时,科研人员应坚持伦理原则,保持研究透明度,主动分享潜在风险信息,与监管机构合作,共同构建安全的生物创新环境。

结论:在创新与安全之间寻找平衡

AI蛋白质设计技术的突破为生物医学研究带来了巨大机遇,但也对生物安全提出了新挑战。正如研究所表明的,现有的筛查系统存在漏洞,需要不断更新以应对新兴威胁。未来,随着AI技术的进一步发展,我们可能会面临更复杂的生物安全问题。因此,在推动技术创新的同时,我们必须高度重视生物安全防护,构建能够适应技术快速发展的动态防护体系,确保科技进步造福人类而非带来风险。这需要科研人员、政策制定者、产业界和公众的共同努力,在创新与安全之间寻找平衡点,共同守护人类的生物安全未来。