AI设计蛋白质:生物安全领域的潜在零日漏洞

1

蛋白质结构模型

设计复杂的三维蛋白质结构在AI工具的帮助下变得前所未有的简单。这些先进技术正在改变生物学研究的方式,同时也带来了新的安全挑战。

生物威胁筛查系统的现状

生物威胁多种多样,包括病毒、细菌等病原体,以及蛋白质类毒素(如2003年被寄往白宫的蓖麻毒素)和通过酶促反应产生的化学毒素(如与赤潮相关的分子)。所有这些威胁都源于同一个基本生物学过程:DNA被转录成RNA,然后用于制造蛋白质。

过去几十年中,启动这一过程变得异常简单——只需从众多在线公司订购所需的DNA序列,这些公司会合成请求的序列并寄出。然而,认识到这一潜在威胁后,政府和行业合作,在每份订单中添加了筛查步骤:DNA序列会被扫描,以确定它是否能编码被视为威胁的蛋白质或病毒部分。任何阳性结果都会被标记出来,由人工干预评估它们或订购者是否真正构成危险。

威胁筛查的演进

多年来,蛋白质列表和扫描技术的复杂程度都随着研究进展不断更新。例如,最初的筛查基于与目标DNA序列的相似性。但由于许多DNA序列可以编码相同的蛋白质,筛查算法相应地进行了调整,能够识别出构成相同威胁的所有DNA变体。

蛋白质折叠结构

新型威胁的出现:AI设计的蛋白质变体

微软领导的研究团队提出了一种新型威胁:AI设计的毒素。这一威胁基于一个简单事实——不仅多个DNA序列可以编码相同的蛋白质,多个蛋白质也可以执行相同的功能。例如,要形成毒素,通常需要蛋白质采取正确的三维结构,使蛋白质中的几个关键氨基酸相互靠近。然而,在这些关键氨基酸之外,情况往往相当灵活。一些氨基酸可能完全不重要;蛋白质中的其他位置可能与任何带正电荷的氨基酸或任何疏水氨基酸配合工作。

过去,进行实验以确定氨基酸链在保持功能的同时能承受哪些变化极其困难(耗时且昂贵)。但新分析背后的团队认识到,AI蛋白质设计工具现在已经相当成熟,可以预测远缘序列何时能折叠成相同形状并催化相同反应。尽管这个过程仍然容易出错,通常需要测试十几个或更多提议的蛋白质才能获得一个有效的,但它已经取得了一些令人印象深刻的成功。

零日漏洞的发现与应对

团队从基本测试开始:使用AI工具设计蓖麻毒素的变体,然后测试它们用于筛查DNA订单的软件。测试结果表明,危险蛋白质变体有可能绕过现有的筛查软件,因此这种情况被当作相当于零日漏洞处理。

"受解决此类情况的既定网络安全流程启发,我们联系了相关机构,报告了这一潜在漏洞,包括国际基因合成联盟以及蛋白质设计社区和生物安全领域的可信同事,还有美国科学技术政策办公室、美国国家标准与技术研究院、美国国土安全部和美国大流行病准备与应对办公室的负责人。"作者报告称,"在这些机构之外,细节被保密,直到可以进行更全面的研究,以寻求潜在的缓解措施并开发和部署'补丁'..."

大规模测试与发现

原始测试的细节今天作为更广泛分析的一部分公布,该方法扩展到了大量有毒蛋白质的范围。研究人员从72种毒素开始,使用三个开源AI软件包生成了约75,000个潜在蛋白质变体。

这里的情况变得有些复杂。许多AI设计的蛋白质变体最终会失去功能,要么微妙地,要么灾难性地未能折叠成正确的构象以形成活性毒素。只有通过制造蛋白质并进行生物学测试,才能知道哪些有效;大多数AI蛋白质设计工作会从几十到几百个最有前景的设计中实际制造蛋白质,以找到少数几个活性的。但对75,000个设计这样做完全不现实。

相反,研究人员使用两种基于软件的工具评估了75,000个设计中的每一个。其中一个关注蛋白质整体预测物理结构之间的相似性,另一个查看单个氨基酸位置之间的预测差异。无论哪种方式,它们都是对两条氨基酸链形成的蛋白质有多相似的大致近似。但它们绝对不是这两个蛋白质功能是否相当的明确指标。

筛查软件的表现分析

将编码所有75,000个设计的DNA序列输入用于筛查DNA订单潜在威胁的软件后,一个情况非常清楚:四个筛查程序在将这些变体设计标记为威胁的能力上存在巨大差异。其中两个似乎做得相当好,一个表现中等,而另一个让大多数设计通过了。三个软件包根据这一性能进行了更新,显著提高了它们识别变体的能力。

所有四个筛查软件包中还有一个明显的趋势:变体与原始结构越接近,软件包(更新前后)就越有可能将其标记为威胁。在所有情况下,还存在一组不太可能折叠成类似结构的变体设计,这些通常不会被标记为威胁。

威胁评估与实际影响

再次强调,重要的是要指出这一评估基于预测的结构;"不太可能"折叠成与原始毒素类似的结构并不意味着这些蛋白质作为毒素会失去活性。功能性蛋白质在这组蛋白质中可能非常罕见,但其中可能有一小部分。这一小部分也可能足够稀少,以至于你必须订购和测试太多的设计才能找到一个有效的,这使得它成为一个不切实际的威胁载体。

同时,也有一小部分蛋白质在结构上与毒素非常相似,且未被软件标记。对于三个更新版本的软件,在"非常相似"类别中,漏掉的设计约占1%到3%。这并不理想,但可能足够好,以至于任何试图通过这种方法订购毒素的团体都会引起注意,因为他们需要订购50多个才有很大机会找到一个漏网的,这会引发各种警报。

另一个值得注意的结果是,未被标记的设计主要是少数几种毒素蛋白质的变体。因此,这更像是筛查软件的一小组特定问题,而不是普遍问题。值得注意的是,产生大量未标记变体的蛋白质之一本身并不具有毒性;相反,它是实际毒素起作用所必需的辅因子。因此,一些筛查软件包甚至没有将原始蛋白质标记为危险,更不用说其任何变体了。(由于这些原因,其中一个表现较好的软件包的制造商认为这里的威胁不值得进行安全修补。)

未来展望与挑战

就其本身而言,这项工作似乎没有立即识别出一个重大威胁。但它可能很有用,因为它促使开发筛查软件的工程师开始思考新兴威胁。

正如这项工作背后的研究人员所指出的,AI蛋白质设计仍处于早期阶段,我们可能会看到显著改进。而且,我们能够筛查的内容可能存在限制。我们已经达到了可以使用AI蛋白质设计工具创建具有全新功能的蛋白质的程度,而且无需从现有蛋白质的变体开始。换句话说,我们可以设计蛋白质,这些蛋白质不可能基于与已知威胁的相似性进行筛查,因为它们看起来一点也不像我们知道的危险物质。

基于蛋白质的毒素将非常难以设计,因为它们必须穿过细胞膜,然后在内部做一些危险的事情。虽然AI工具目前可能无法设计出如此复杂的东西,但我不会排除它们最终达到这种复杂性的可能性。

结论与建议

这一发现提醒我们,随着AI技术在生物领域的应用不断深入,生物安全防护体系也需要不断进化。虽然目前这一漏洞的实际威胁有限,但它代表了未来可能面临的更大挑战。建议相关机构:

  1. 持续更新DNA序列筛查算法,纳入AI蛋白质设计的最新进展
  2. 建立跨学科合作机制,整合AI专家与生物安全专家的知识
  3. 开发更先进的蛋白质功能预测工具,而不仅仅是结构相似性分析
  4. 制定针对AI设计生物材料的监管框架
  5. 投资研发能够识别全新功能蛋白质的筛查技术

AI技术在生物领域的应用前景广阔,但同时也带来了前所未有的安全挑战。只有通过前瞻性研究和国际合作,我们才能确保这些技术造福人类,而非被滥用。