AI设计的蛋白质:生物安全的隐形漏洞

1

在数字化时代,人工智能(AI)正在重塑各个领域的边界,从艺术创作到科学研究,无所不包。然而,当AI技术深入到生物分子设计领域时,一个令人不安的问题浮出水面:我们现有的生物安全防护系统能否跟上AI设计的步伐?最新研究表明,当前用于筛查DNA订单的威胁检测工具可能无法识别AI设计的毒素蛋白,这被称为"生物0日漏洞"。这一发现不仅揭示了当前生物安全防护体系的潜在脆弱性,也为未来AI技术在生物安全领域的应用敲响了警钟。

生物威胁检测的现有机制

生物威胁多种多样,包括病毒、细菌等病原体,以及蓖麻毒素等蛋白质毒素。这些威胁的共同点在于它们都通过DNA转录为RNA,再翻译为蛋白质的过程发挥作用。过去几十年里,获取特定DNA序列变得异常简单——只需在线订购,合成公司就会将所需的DNA序列寄送过来。

为了应对这一潜在风险,政府和行业合作建立了DNA序列筛查系统,每笔DNA订单都会被扫描,检查其是否编码被视为威胁的蛋白质或病毒部分。任何阳性结果都会被标记,由人工评估是否构成实际威胁。

这些筛查系统随着研究的进步不断更新。最初,筛查基于与目标DNA序列的相似性进行。但由于许多不同的DNA序列可以编码相同的蛋白质,筛查算法相应调整,能够识别出构成相同威胁的所有DNA变体。

AI带来的新挑战

然而,威胁的复杂性远超于此。不仅多个DNA序列可以编码相同的蛋白质,多个蛋白质也可以执行相同的功能。例如,要形成毒素,蛋白质通常需要采取正确的三维结构,使蛋白质中的几个关键氨基酸相互靠近。在这些关键氨基酸之外,情况往往相当灵活——某些氨基酸可能完全不重要,蛋白质的其他位置可能与任何带正电荷的氨基酸或任何疏水氨基酸配合。

过去,通过实验确定氨基酸序列的变化在保持功能的同时能容忍什么程度的变化极其困难(耗时且昂贵)。但AI蛋白质设计工具现在已相当成熟,能够预测远缘序列何时可以折叠成相同的形状并催化相同的反应。

这一过程虽然仍有错误,但已经取得了令人瞩目的成功。研究人员由此提出一个假设:AI可以改造现有毒素,设计出具有相同功能但与原序列差异足够大的蛋白质变体,从而绕过现有的筛查程序。

"生物0日漏洞"的发现与验证

微软领导的研究团队开始进行基础测试:使用AI工具设计蓖麻毒素的变体,然后测试它们用于筛查DNA订单的软件。测试结果表明,存在危险蛋白质变体绕过现有筛查软件的风险,这种情况被当作"零日漏洞"处理。

"借鉴网络安全领域处理此类情况的成熟流程,我们联系了相关机构,包括国际基因合成联盟以及蛋白质设计社区和生物安全领域的可信同事,以及美国科学技术政策办公室、美国国家标准与技术研究院、美国国土安全部和美国大流行病准备与应对办公室的负责人。"研究人员报告称,"在这些机构之外,细节被保密,直到可以进行更全面的研究,以开发潜在的缓解措施和'补丁'...并进行部署。"

研究人员从72种毒素开始,使用三个开源AI软件包生成了约75,000个潜在蛋白质变体。然而,测试所有这些设计在实际生物环境中是否功能正常是不现实的,因为大多数AI蛋白质设计工作会从最有前景的数十到数百个潜在设计中制造实际蛋白质,以找到少数几个具有活性的蛋白质。

相反,研究人员使用两种基于软件的工具评估了这75,000个设计中的每一个。一个工具关注蛋白质预测整体物理结构之间的相似性,另一个查看单个氨基酸位置预测的差异。无论如何,它们都是两个氨基酸序列形成的蛋白质相似程度的粗略近似。

将编码所有75,000个设计的DNA序列输入用于筛查DNA订单的软件后,结果令人担忧。四个筛查程序在标记这些变体设计作为威胁的能力上存在巨大差异。其中两个似乎做得相当好,一个表现参差不齐,而另一个让大多数变体通过。三个软件包根据这一性能进行了更新,显著提高了识别变体的能力。

研究结果的解读

值得注意的是,这一评估基于预测的结构;"不太可能"折叠成与原始毒素相似的结构并不意味着这些蛋白质作为毒素会失活。功能性蛋白质在这一组中可能非常罕见,但可能存在少数几个。这些少数也可能足够罕见,以至于你必须订购和测试太多的设计才能找到一个有效的,这使得它成为一个不切实际的威胁载体。

同时,也有一些与毒素结构非常相似但未被软件标记的蛋白质。对于三个修补版本的软件,在"非常相似"类别中,绕过筛查的蛋白质约占1%到3%。虽然这不理想,但可能足够好,以至于任何试图通过这种方法订购毒素的团体都会引起注意,因为他们必须订购50多个才有很大机会找到一个绕过的,这会引发各种警报。

另一个显著结果是,未被标记的设计主要是少数几种毒素蛋白的变体。因此,这更像是一组小范围的特定问题,而不是筛查软件的普遍问题。值得注意的是,产生大量未标记变体的蛋白质之一本身并不具有毒性;相反,它是实际毒素起作用所必需的辅因子。因此,一些筛查软件甚至没有将原始蛋白质标记为危险,更不用说其任何变体了。

未来展望与应对策略

从目前来看,这项研究并未识别出构成重大威胁的问题。然而,它是有用的,因为它促使开发筛查软件的人员开始思考新兴威胁。

正如这项工作背后的人所指出的,AI蛋白质设计仍处于早期阶段,我们可能会看到相当大的改进。而且,我们能够筛查的内容可能存在限制。我们已经达到这样一个阶段:AI蛋白质设计工具可以用于创建具有全新功能的蛋白质,而且不需要从现有蛋白质的变体开始。换句话说,我们可以设计出基于与已知威胁的相似性无法筛查的蛋白质,因为它们看起来一点也不像我们所知道的任何危险物质。

蛋白质毒素将非常难以设计,因为它们必须穿过细胞膜,然后在内部做一些危险的事情。虽然AI工具目前可能无法设计出如此复杂的东西,但我不会轻易排除它们最终达到这种复杂程度的可能性。

面对这一挑战,生物安全领域需要采取多层次应对策略:

  1. 技术层面:开发更先进的AI辅助筛查工具,能够识别功能相似但结构不同的蛋白质变体。

  2. 监管层面:完善基因合成监管框架,要求合成公司采用更严格的筛查标准,并对高风险订单进行人工审核。

  3. 国际合作:建立全球生物安全信息共享机制,及时通报新的威胁模式和应对措施。

  4. 研究投入:增加对生物安全防护技术的研究投入,特别是在AI与生物安全交叉领域。

  5. 伦理教育:加强对生物研究人员和AI开发者的伦理教育,提高他们对生物安全风险的认识。

结论

AI设计的蛋白质带来的生物安全挑战提醒我们,技术进步与安全保障必须同步发展。虽然目前这一威胁尚未构成重大风险,但它为我们敲响了警钟,促使我们重新思考生物安全防护体系的未来发展方向。随着AI技术在生物设计领域的不断深入,我们需要建立更加灵活、智能的生物安全防护机制,以应对未来可能出现的新型生物威胁。这不仅是一项技术挑战,更是一项关乎人类共同安全的重要任务。