人工智能技术的飞速发展正在重塑多个领域,而蛋白质设计正是其中最具革命性的应用之一。然而,这一技术进步也带来了前所未有的安全挑战。最新研究表明,AI设计的蛋白质可能绕过现有的生物安全筛查系统,创造出一个"生物零日漏洞"。这一发现引发了科学界对AI在生物安全领域潜在风险的深入思考,同时也促使相关筛查工具的更新与改进。
生物威胁筛查的现状与挑战
生物威胁形式多样,包括病毒、细菌等病原体,以及基于蛋白质的毒素(如2003年寄往白宫的蓖麻毒素)和通过酶促反应产生的化学毒素。这些威胁的共同起点是DNA转录为RNA,再翻译为蛋白质的过程。
过去几十年中,获取特定DNA序列变得异常简单——研究人员只需在线订购,合成公司即可提供所需的DNA。然而,这一便利也带来了安全隐患。为此,政府和行业合作建立了DNA订单筛查机制,每笔订单都会被扫描以检查是否编码已知有害蛋白质或病毒的部分序列。任何可疑订单都会被标记,供人工评估其潜在威胁。
筛选技术的演进
生物威胁筛选技术随着研究进展不断更新。最初,筛选基于与目标DNA序列的相似性进行。然而,许多不同的DNA序列可以编码相同的蛋白质,因此筛选算法进行了相应调整,能够识别所有构成相同威胁的DNA变体。
AI蛋白质设计带来的新威胁
微软领导的研究团队提出了一种新型威胁:不仅多个DNA序列可以编码相同的蛋白质,多个蛋白质也可以执行相同功能。以毒素为例,通常需要蛋白质采用正确的三维结构,使关键的几个氨基酸在蛋白质内部形成接近的排列。在这些关键氨基酸之外,蛋白质的其他区域往往具有较大的灵活性——某些氨基酸可能完全不重要,其他位置则可能与任何带正电荷的氨基酸或任何疏水氨基酸兼容。
在过去,通过实验确定氨基酸链可以承受哪些变化而仍保持功能是一项极其耗时且昂贵的工作。然而,研究团队认识到,AI蛋白质设计工具现已相当成熟,能够预测远缘序列何时可以折叠成相同形状并催化相同反应。虽然这一过程仍容易出错,通常需要测试十多个或更多候选蛋白质才能获得一个功能性蛋白质,但已经取得了令人瞩目的成功。
零日漏洞的发现与应对
研究团队首先进行了一项基础测试:使用AI工具设计蓖麻毒素的变体,然后测试它们用于筛查DNA订单的软件。测试结果表明,存在危险蛋白质变体绕过现有筛查软件的风险,因此该情况被当作零日漏洞处理。
"借鉴解决此类情况的既定网络安全流程,我们联系了相关机构,包括国际基因合成联盟以及蛋白质设计社区和生物安全领域的可信同事,以及美国科学技术政策办公室、美国国家标准与技术研究院、美国国土安全部和美国大流行病准备与应对办公室的负责人。"研究团队报告道,"在这些机构之外,细节被保密,直到可以进行更全面的研究,以制定可能的缓解措施和'补丁'...并开发和部署。"
大规模分析与软件更新
原始测试的细节现已公开,作为更广泛分析的一部分,该方法被扩展到大量有毒蛋白质。研究团队从72种毒素开始,使用三个开源AI包生成了约75,000个潜在蛋白质变体。
然而,评估这75,000个设计面临挑战。许多AI设计的蛋白质变体最终将失去功能,或轻微或灾难性地未能折叠成正确结构以形成活性毒素。要确定哪些蛋白质有效,唯一的方法是制造这些蛋白质并进行生物学测试;大多数AI蛋白质设计工作会从数十到数百个最有前景的候选设计中制造实际蛋白质,以找到少数几个具有活性的蛋白质。但对75,000个设计都这样做完全不现实。
相反,研究人员使用两个基于软件的工具评估了每个设计。一个工具关注蛋白质预测整体物理结构之间的相似性,另一个查看单个氨基酸位置之间的预测差异。无论哪种方式,它们都是对两种氨基酸链形成的蛋白质相似程度的大致近似,但绝不是这些蛋白质是否具有相同功能的明确指标。
将所有75,000个设计的DNA序列输入用于筛查DNA订单的软件后,一个事实非常明显:四种筛查程序标记这些变体设计为威胁的能力存在巨大差异。其中两个似乎做得相当好,一个表现中等,而另一个让大多数设计通过。三个软件包根据这一性能进行了更新,显著提高了它们识别变体的能力。
威胁评估与实际影响
值得注意的是,所有四个筛查软件包都有一个明显趋势:变体与原始毒素结构越接近,软件包(修补前后)就越有可能将其标记为威胁。在所有情况下,还存在一组不太可能折叠成类似结构的变体设计,这些设计通常未被标记为威胁。
然而,重要的是要强调,这一评估基于预测的结构;"不太可能"折叠成与原始毒素类似的结构并不意味着这些蛋白质作为毒素会失去活性。功能性蛋白质在这组设计中可能非常罕见,但其中可能存在少数几个。这些少数蛋白质也可能足够罕见,以至于必须订购和测试大量设计才能找到一个有效的,这使得这种威胁向量不切实际。
同时,也存在一些与毒素结构非常相似但未被软件标记的蛋白质。对于三个修补后的软件版本,在"非常相似"类别中,通过筛查的设计约占1%到3%。虽然这不理想,但可能足够好,以至于任何试图通过此方法订购毒素的团体都会引起注意——他们必须订购50多个才有很大机会找到一个绕过筛查的设计,这会引发各种警报。
另一个值得注意的结果是,未被标记的设计主要是少数几种毒素蛋白的变体。因此,这更像是筛查软件的一小组特定问题,而非普遍问题。值得注意的是,产生大量未标记变体的蛋白质之一本身并不具有毒性;相反,它是实际毒素发挥作用的必需辅因子。因此,一些筛查软件甚至没有将原始蛋白质标记为危险,更不用说其任何变体了。(出于这些原因,其中一个性能较好的软件包的制造商认为这里的威胁不值得进行安全修补。)
未来展望与防御升级
虽然这项研究本身并未立即发现重大威胁,但它很有价值,因为它促使开发筛查软件的工程师开始思考新兴威胁。
正如这项工作的负责人指出的,AI蛋白质设计仍处于早期阶段,我们可能会看到显著改进。而且,我们可能能够筛查的内容存在限制。我们已经达到这样的阶段:AI蛋白质设计工具可以创建具有全新功能的蛋白质,并且无需从现有蛋白质的变体开始。换句话说,我们可以设计蛋白质,这些蛋白质基于与已知威胁的相似性无法进行筛查,因为它们看起来一点也不像我们知道的危险物质。
基于蛋白质的毒素将非常难以设计,因为它们必须穿过细胞膜,然后在内部做危险的事情。虽然AI工具目前可能无法设计出如此复杂的物质,但我不会排除它们最终达到这种复杂性的可能性。
生物安全防御体系的演进
这一发现凸显了生物安全防御体系需要不断适应技术进步的必要性。传统的生物安全筛查主要依赖于已知威胁的数据库和序列匹配,而AI蛋白质设计的出现挑战了这一模式。未来的生物安全防御需要更加注重功能层面的筛查,而不仅仅是序列相似性。
多层次防御策略
面对AI设计蛋白质的潜在威胁,生物安全防御体系需要采用多层次策略:
- 技术层面:开发能够预测蛋白质功能的AI筛查工具,而不仅仅是序列匹配。
- 监管层面:完善基因合成和蛋白质设计的监管框架,对高风险研究实施更严格的审查。
- 国际合作:加强全球生物安全合作,共享威胁信息和最佳实践。
- 伦理教育:强化科研人员的生物安全伦理意识,确保技术发展的安全性。
结论:平衡创新与安全
AI蛋白质设计技术既带来了巨大的科学机遇,也带来了前所未有的安全挑战。正如网络安全领域不断发现和修补零日漏洞一样,生物安全领域也需要建立类似的响应机制。这一研究提醒我们,技术创新与安全保障必须齐头并进,只有这样才能确保AI技术在造福人类的同时,不会成为新的威胁来源。
生物安全防御体系的演进将是一个持续的过程,需要科学家、政策制定者和伦理学家的共同努力。通过前瞻性的研究和审慎的政策制定,我们有望在享受AI蛋白质设计带来的科学突破的同时,有效管理其潜在风险。