AI蛋白质设计:生物安全领域的隐形漏洞

1

在人工智能技术飞速发展的今天,一个令人担忧的生物安全问题浮出水面:现有的威胁筛查工具可能无法识别AI设计的危险蛋白质。微软研究团队近期发现并可能已经修复了一个他们所称的"生物零日漏洞"——一个未被识别的安全漏洞,威胁着我们抵御生物威胁的系统。这个系统本应筛查DNA序列购买订单,防止有人订购编码毒素或危险病毒的DNA。然而,研究人员警告称,它正变得越来越容易漏掉一种新型威胁:AI设计的毒素。

生物威胁与现有防护机制

生物威胁多种多样,有些是病原体,如病毒和细菌;有些是基于蛋白质的毒素,如2003年[被送往白宫]的蓖麻毒素;还有些是通过酶促反应产生的化学毒素,如[与赤潮相关的分子]。所有这些威胁都源于相同的基本生物学过程:DNA被转录成RNA,然后用于制造蛋白质。

几十年来,启动这一过程变得异常简单——只需从众多公司中的任何一家在线订购所需的DNA序列,这些公司会合成请求的序列并发货。认识到这里的潜在威胁,政府和行业合作,在每份订单中添加了一个筛查步骤:DNA序列会被扫描,以确定其是否能够编码被视为威胁的蛋白质或病毒的部分。任何被标记为阳性的序列都会被标记出来,供人类干预评估,以确定它们或订购者是否真正构成危险。

蛋白质结构模型

AI工具使得设计复杂蛋白质三维结构变得更加容易

多年来,蛋白质列表和筛查的复杂性都随着研究进展不断更新。例如,最初的筛查是基于与目标DNA序列的相似性进行的。但由于许多DNA序列可以编码相同的蛋白质,筛查算法也相应调整,能够识别出构成相同威胁的所有DNA变体。

新威胁的出现

这项新工作可以看作是对这一威胁的扩展。不仅多个DNA序列可以编码相同的蛋白质,多个蛋白质也可以执行相同的功能。例如,要形成毒素,通常需要蛋白质采用正确的三维结构,使蛋白质中的几个关键氨基酸相互靠近。然而,在这些关键氨基酸之外,情况往往相当灵活。一些氨基酸可能根本不重要;蛋白质的其他位置可能适用于任何带正电荷的氨基酸,或任何疏水性氨基酸。

过去,进行实验以了解氨基酸链在保持功能的同时可以承受哪些变化,可能是极其困难的(耗时且昂贵)。但新分析背后的团队认识到,AI蛋白质设计工具现在已经相当成熟,可以预测远缘序列何时可以折叠成相同的形状并催化相同的反应。这个过程仍然容易出错,通常需要测试十多个或更多建议的蛋白质才能获得一个有效的,但它已经[取得了一些令人印象深刻的成功]。

零日漏洞的发现

团队开始了一个基本测试:使用AI工具设计蓖麻毒素的变体,然后测试它们用于筛查DNA订单的软件。测试结果表明,存在危险蛋白质变体绕过现有筛查软件的风险,因此这种情况被等同于零日漏洞处理。

"借鉴解决此类情况的既定网络安全流程,我们联系了相关机构,通报了潜在漏洞,包括国际基因合成联盟、蛋白质设计社区的可信赖同事以及美国科学技术政策办公室、美国国家标准与技术研究院、美国国土安全部和美国大流行病准备与应对办公室的生物安全负责人。"作者报告称,"在这些机构之外,细节被保密,直到可以进行更全面的研究,以寻求可能的缓解措施和开发并部署'补丁'..."

蛋白质三维结构

AI设计的蛋白质可以形成与天然蛋白质相似的三维结构

作为更大分析的一部分,原始测试的细节[今天已公开提供],该方法扩展到了大量有毒蛋白质。研究人员从72种毒素开始,使用三个开源AI软件包生成了约75,000个潜在的蛋白质变体。

事情在这里变得有些复杂。许多AI设计的蛋白质变体最终会失去功能,要么微妙地,要么灾难性地未能折叠成正确的配置以形成活性毒素。只有通过制造蛋白质并进行生物测试才能知道哪些有效;大多数AI蛋白质设计工作会从最有前景的几十到几百个潜在设计中实际制造蛋白质,以找到少数几个具有活性的。但对75,000个设计都这样做是完全不现实的。

相反,研究人员使用两个基于软件的工具评估了所有75,000个设计。其中一个关注蛋白质整体预测物理结构之间的相似性,另一个查看单个氨基酸位置之间的预测差异。无论哪种方式,它们都是两条氨基酸链形成的蛋白质之间相似程度的粗略近似。但它们绝对不是这两个蛋白质功能是否相当的明确指标。

筛查软件的表现

无论如何,所有75,000个设计的DNA序列都被输入到用于筛查DNA订单潜在威胁的软件中。有一点非常清楚的是,四种筛查程序标记这些变体设计为威胁的能力存在巨大差异。其中两个似乎做得相当好,一个表现中等,而另一个让大多数设计通过了。三个软件包根据这一性能进行了更新,这显著提高了它们识别变体的能力。

所有四个筛查软件包中也存在一个明显的趋势:变体与原始结构越接近,软件包(修补前和修补后)就越有可能将其标记为威胁。在所有情况下,都有一组变体设计不太可能折叠成类似结构,这些通常不会被标记为威胁。

意义与影响

同样,重要的是要强调,这一评估基于预测的结构;"不太可能"折叠成与原始毒素相似的结构并不意味着这些蛋白质作为毒素会失去活性。功能性蛋白质在这组蛋白质中可能非常罕见,但其中可能有少数几个。这少数几个也可能足够罕见,以至于你必须订购并测试太多设计才能找到一个有效的,这使得它成为一个不切实际的威胁载体。

同时,也有一些蛋白质在结构上与毒素非常相似,却没有被软件标记。对于三个修补过的软件版本,在"非常相似"类别中,通过筛查的约占1%到3%。这并不理想,但可能足够好,以至于任何试图通过这种方法订购毒素的团体都会引起注意,因为他们必须订购50多个才有很大机会找到一个通过筛查的,这会引发各种警报。

另一个值得注意的结果是,未被标记的设计主要是少数几种毒素蛋白的变体。因此,这更像是筛查软件的一组小问题,而不是一个普遍问题。值得注意的是,产生大量未被标记变体的蛋白质之一本身并不具有毒性;相反,它是实际毒素起作用所必需的辅因子。因此,一些筛查软件包甚至没有将原始蛋白质标记为危险,更不用说其任何变体了。(由于这些原因,其中一个表现较好的软件包的制造商认为这里的威胁不够大,不值得进行安全修补。)

未来展望

总的来说,这项工作本身似乎没有立即识别出一个重大威胁。但它可能很有用,因为它促使设计筛查软件的人开始思考新兴威胁。

正如这项工作背后的人所指出的,AI蛋白质设计仍处于早期阶段,我们可能会看到显著改进。而且,我们可能能够筛查的东西存在限制。我们已经到达这样的阶段:AI蛋白质设计工具可以创建具有全新功能的蛋白质,并且不需要从现有蛋白质的变体开始。换句话说,我们可以设计出基于与已知威胁的相似性无法筛查的蛋白质,因为它们看起来一点也不像我们知道任何危险的东西。

基于蛋白质的毒素将非常难以设计,因为它们必须穿过细胞膜,然后在内部做一些危险的事情。虽然AI工具目前可能无法设计出如此复杂的结构,但我不会排除它们最终达到这种复杂程度的可能性。

结论

AI蛋白质设计的进步为科学研究和应用带来了巨大机遇,同时也带来了新的生物安全挑战。微软团队的研究揭示了现有生物安全防护系统的潜在漏洞,促使相关机构更新筛查算法,提高对AI设计蛋白质的识别能力。

这一发现提醒我们,随着AI技术在生物领域的深入应用,生物安全防护体系需要不断演进,以应对新型威胁。同时,这也引发了对AI技术伦理和监管的深入思考,如何在促进科学创新与保障生物安全之间找到平衡点,将是未来政策制定者和科研人员需要共同面对的挑战。

随着AI蛋白质设计技术的不断发展,生物安全领域将面临更多未知挑战。只有通过持续的研究、国际合作和严格的监管,才能确保这一强大技术被用于造福人类,而非带来危害。