引言:AI时代的生物安全新挑战
在2025年10月,一个由微软领导的研究团队宣布了一项令人不安的发现:他们识别出并可能修复了一个被称为"生物零日漏洞"的安全隐患。这一漏洞存在于保护我们免受生物威胁的系统之中,而这个系统正是负责筛查DNA序列订购,以确定何时有人正在订购编码毒素或危险病毒的DNA。研究人员警告称,该系统正变得越来越容易错过一种新型威胁:AI设计的毒素。
这一发现引发了科学界和生物安全领域的广泛关注。随着AI工具在蛋白质设计领域的应用日益成熟,我们不得不思考:技术进步是否正在创造我们尚未准备应对的安全风险?本文将深入探讨这一生物零日漏洞的发现过程、潜在影响以及可能的应对措施。
现有生物威胁监测系统的工作原理
生物威胁的多样性与共同起点
生物威胁以多种形式存在。有些是病原体,如病毒和细菌;另一些是基于蛋白质的毒素,如2003年被寄往白宫的蓖麻毒素;还有一些是通过酶促反应产生的化学毒素,如与赤潮相关的分子。尽管这些威胁形式各异,但它们都始于同一个基本的生物学过程:DNA被转录成RNA,然后RNA被用来合成蛋白质。
DNA订购与筛查流程
几十年来,启动这一过程变得异常简单——只需从众多在线公司之一订购所需的DNA序列,这些公司将合成请求的序列并发货。认识到这一潜在威胁后,政府和行业共同努力,为每份订单添加了一个筛查步骤:DNA序列会被扫描,以确定其是否能够编码被视为威胁的蛋白质或病毒的部分。任何呈阳性的结果都会被标记出来,以便人工干预评估它们或订购者是否真正构成危险。
筛查技术的演进
多年来,蛋白质清单和扫描技术的复杂性都随着研究进展而不断更新。例如,最初的筛查是基于与目标DNA序列的相似性进行的。但由于许多DNA序列可以编码相同的蛋白质,筛查算法也相应进行了调整,能够识别出构成相同威胁的所有DNA变体。
AI蛋白质设计带来的新威胁
蛋白质功能的灵活性
新研究可以被视为这一威胁的延伸。不仅多个DNA序列可以编码相同的蛋白质,多个蛋白质也可以执行相同的功能。例如,要形成毒素,通常需要蛋白质采取正确的三维结构,使蛋白质中的几个关键氨基酸彼此靠近。然而,在这些关键氨基酸之外,情况往往相当灵活。一些氨基酸可能完全不重要;蛋白质中的其他位置可能与任何带正电荷的氨基酸或任何疏水性氨基酸配合工作。
AI设计蛋白质的能力
过去,进行实验以确定氨基酸链在保持功能的同时可以承受哪些类型的改变,可能是极其困难(耗时且昂贵)的。但新分析背后的团队认识到,AI蛋白质设计工具现在已经相当成熟,可以预测远缘序列何时可以折叠成相同的形状并催化相同的反应。尽管这一过程仍然容易出错,通常需要测试十多个或更多提议的蛋白质才能获得一个可工作的蛋白质,但它已经取得了一些令人印象深刻的成功。
零日漏洞的假设
因此,该团队提出了一个假设进行测试:AI可以获取现有毒素,设计出具有相同功能的蛋白质,且该蛋白质与原毒素的亲缘关系足够远,以至于筛查程序无法检测到编码它的DNA的订单。
研究方法与发现
初始测试
团队从一个基本测试开始:使用AI工具设计蓖麻毒素的变体,然后测试它们用于筛查DNA订单的软件。测试结果表明,危险的蛋白质变体有可能绕过现有的筛查软件,因此这种情况被视为相当于零日漏洞。
研究人员遵循既定的网络安全流程处理这种情况,他们联系了相关机构,包括国际基因合成联盟、蛋白质设计领域的可信同事以及美国科学技术政策办公室、美国国家标准与技术研究院、美国国土安全部和疫情准备与应对办公室的生物安全负责人。在这些机构之外,细节被保密,直到可以进行更全面的研究,以寻求可能的缓解措施和"补丁"的开发和部署。
扩展研究
原始测试的细节现已公布,作为一项更大分析的一部分,该方法被扩展到大量有毒蛋白质。研究从72种毒素开始,研究人员使用三个开源AI包总共生成了约75,000个潜在的蛋白质变体。
功能性评估的挑战
事情在这里变得有些复杂。许多AI设计的蛋白质变体最终将无功能,要么微妙地,要么灾难性地未能折叠成正确的构象以形成活性毒素。要知道哪些蛋白质有效,唯一的方法是制造这些蛋白质并进行生物学测试;大多数AI蛋白质设计工作会从最有前景的几十到几百个设计中实际制造蛋白质,以找到少数几个具有活性的蛋白质。但对75,000个设计都这样做是完全不现实的。
软件评估方法
相反,研究人员使用两种基于软件的工具评估了75,000个设计中的每一个。其中一个工具关注蛋白质整体预测物理结构之间的相似性,另一个则查看单个氨基酸位置之间的预测差异。无论哪种方式,它们都是对由两条氨基酸链形成的两种蛋白质应该有多相似的粗略近似。但它们绝对不是这两个蛋白质功能是否相当的明确指标。
筛选软件的表现
无论如何,编码所有75,000个设计的DNA序列被输入到用于筛查DNA订单潜在威胁的软件中。非常清楚的一点是,四种筛选程序标记这些变体设计为威胁的能力存在巨大差异。其中两个似乎做得相当好,一个表现中等,而另一个让大多数变体通过。三个软件包针对这一表现进行了更新,显著提高了它们识别变体的能力。
结构相似性与筛查效果
所有四种筛选软件包中也存在一个明显的趋势:变体与原始毒素的结构越接近,该软件包(修补前和修补后)就越有可能将其标记为威胁。在所有情况下,还存在一组不太可能折叠成类似结构的变体设计,这些设计通常未被标记为威胁。
研究发现的意义与局限
预测结构的局限性
再次强调,重要的是要说明这一评估基于预测的结构;"不太可能"折叠成与原始毒素类似的结构并不意味着这些蛋白质作为毒素会无活性。功能性蛋白质在这个群体中可能非常罕见,但其中可能有一小部分。这一小部分也可能足够罕见,以至于你必须订购和测试太多设计才能找到一个有效的,这使得它成为一个不切实际的威胁载体。
实际威胁评估
同时,也有一些蛋白质与毒素结构非常相似,但未被软件标记。对于三个修补版本的软件,在"非常相似"类别中,通过筛查的比例约为1%到3%。这并不理想,但可能足够好,以至于任何试图通过这种方法订购毒素的团体都会引起注意,因为他们必须订购50多个才能有很好的机会找到一个通过筛查的,这会引发各种警报。
问题集中性
另一个值得注意的是,未被标记的设计主要是少数几种毒素蛋白质的变体。因此,这更像是筛选软件的一个特定问题,而不是一个普遍问题。值得注意的是,产生许多未被标记变体的蛋白质之一本身并不具有毒性;相反,它是实际毒素起作用所必需的辅因子。因此,一些筛选软件包甚至没有将原始蛋白质标记为危险,更不用说其任何变体了。(由于这些原因,其中一个性能较好的软件包的制造商认为这里的威胁不够显著,不值得进行安全修补。)
未来展望与应对策略
当前威胁的有限性
就其本身而言,这项工作似乎并未识别出目前构成重大威胁的东西。但它可能很有用,因为它促使负责设计筛选软件的人们开始思考新兴威胁。
AI蛋白质设计的快速发展
正如这项工作背后的人所指出的,AI蛋白质设计仍处于早期阶段,我们很可能会看到显著的改进。而且,我们能够筛查的内容可能存在限制。我们已经达到这样的程度:AI蛋白质设计工具可以用来创建具有全新功能的蛋白质,并且这样做无需从现有蛋白质的变体开始。换句话说,我们可以设计出基于与已知威胁的相似性无法筛查的蛋白质,因为它们看起来一点也不像我们已知任何危险的东西。
更复杂的蛋白质设计
基于蛋白质的毒素将非常难以设计,因为它们必须穿过细胞膜,然后在内部做一些危险的事情。虽然AI工具目前可能无法设计出如此复杂的东西,但我不会排除它们最终达到这种复杂性的可能性。
建立更强大的防御体系
面对这一新兴挑战,我们需要建立更强大的生物安全防御体系。这包括:
持续更新筛选算法:开发能够识别AI设计蛋白质的新算法,不仅基于序列相似性,还要考虑结构和功能特征。
多层次防御机制:建立多层次的安全屏障,包括订单筛查、人工审核和后期监测,形成纵深防御体系。
国际合作与信息共享:加强国际间的生物安全合作,建立全球性的威胁情报共享机制。
技术发展与安全平衡:在推动AI蛋白质设计技术发展的同时,建立相应的安全规范和伦理框架,确保技术进步不会带来不可控的安全风险。
公众教育与参与:提高公众对生物安全问题的认识,鼓励科学家、企业和政府共同参与生物安全治理。
结论
AI设计的蛋白质确实为生物安全带来了新的挑战,但目前的威胁可能是有限的。这一发现更像是一个预警,提醒我们需要前瞻性地思考如何应对技术进步带来的安全风险。正如网络安全领域需要不断应对新的威胁一样,生物安全领域也需要建立能够适应技术变革的动态防御体系。
在享受AI技术带来便利的同时,我们不能忽视其潜在的安全风险。通过建立更完善的筛查机制、加强国际合作、平衡技术发展与安全需求,我们能够更好地应对这一生物零日漏洞,确保科技进步不会成为安全漏洞的源头。生物安全防护体系的持续创新与完善,将是我们面对这一新兴挑战的关键所在。