引言:AI带来的生物安全新挑战
在人工智能技术飞速发展的今天,AI工具已经能够轻松设计出复杂的三维蛋白质结构。然而,这一技术进步也带来了一个不容忽视的生物安全问题:现有的生物威胁筛查系统可能无法识别AI设计的危险蛋白质。微软研究团队近期发现了一个"生物零日漏洞"——现有DNA序列筛查工具在应对AI设计的蛋白质毒素时存在盲点,这可能使危险物质绕过安全检查。这一发现引发了科学界对生物安全防护系统有效性的重新思考。
生物威胁筛查系统的运作机制
现有筛查系统的原理
生物威胁多种多样,包括病毒、细菌等病原体,以及蛋白质毒素(如2003年被寄往白宫的蓖麻毒素)和通过酶促反应产生的化学毒素。这些威胁的共同起点是DNA转录为RNA,再合成蛋白质的过程。多年来,研究人员可以通过在线公司订购所需的DNA序列,这简化了生物研究流程,但也带来了安全隐患。
为应对这一风险,政府和产业界合作在DNA订单中加入了筛查环节:系统会扫描DNA序列,检查其是否编码被视为威胁的蛋白质或病毒部分。任何可疑序列都会被标记,供人工评估是否构成实际威胁。多年来,筛查系统不断更新,不仅包括蛋白质列表的扩充,筛查算法的 sophistication也在提升。
筛查系统的局限性
最初,筛查基于与目标DNA序列的相似性进行。然而,许多不同的DNA序列可以编码相同的蛋白质,因此筛查算法进行了相应调整,能够识别所有构成相同威胁的DNA变体。但这种调整仍然存在局限——它主要关注DNA序列的相似性,而非蛋白质功能的相似性。
AI蛋白质设计技术及其威胁
AI蛋白质设计的突破
传统上,要确定氨基酸序列可以承受哪些变化而保持功能,需要进行耗时且昂贵的实验。而AI蛋白质设计工具现在已相当先进,能够预测远缘序列何时能折叠成相同形状并催化相同反应。虽然这一过程仍有误差,通常需要测试十多个或更多建议蛋白质才能获得一个功能正常的,但它已经取得了一些令人印象深刻的成功。
AI设计的威胁规避能力
研究团队假设,AI可以基于现有毒素设计出功能相同但结构差异足够大的蛋白质,使得现有筛查程序无法检测到编码这些蛋白质的DNA订单。这一假设基于一个关键事实:不仅多个DNA序列可以编码相同的蛋白质,多个蛋白质也可以执行相同功能。要形成毒素,通常需要蛋白质采取正确的三维结构,使蛋白质中的几个关键氨基酸相互靠近。然而,在这些关键氨基酸之外,情况往往相当灵活——某些氨基酸可能完全不重要,蛋白质的其他位置可能与任何带正电荷的氨基酸或任何疏水氨基酸配合。
研究发现与数据分析
测试方法与结果
研究团队首先进行了基本测试:使用AI工具设计蓖麻毒素的变体,然后测试这些设计 against 用于筛查DNA订单的软件。测试结果表明,危险蛋白质变体有可能绕过现有筛查软件,因此研究团队将这种情况视为相当于零日漏洞。
遵循既定的网络安全流程,研究团队联系了相关机构,包括国际基因合成联盟、蛋白质设计领域的可信同事以及美国科学技术政策办公室、美国国家标准与技术研究院、美国国土安全部和疫情防范与应对办公室的生物安全负责人。在公开这些发现之前,他们保持了细节的机密性,以便进行更全面的研究并开发"补丁"。
大规模蛋白质变体测试
研究团队将测试范围扩大到72种毒素,使用三种开源AI软件包生成了约75,000种潜在蛋白质变体。然而,测试如此多的设计在实际操作中是不现实的——大多数AI蛋白质设计工作只会从最有希望的设计中实际制作几十到数百种蛋白质,以找到少数具有活性的蛋白质。
因此,研究人员使用两种基于软件的工具评估了这75,000种设计:一种关注蛋白质整体预测物理结构之间的相似性,另一种查看单个氨基酸位置之间的预测差异。这两种方法都是对两种氨基酸链形成的蛋白质相似程度的粗略近似,但它们绝对不是表明这两种蛋白质功能相同的明确指标。
筛查软件性能评估
将编码所有75,000种设计的DNA序列输入用于筛查DNA订单的软件后,研究人员发现四种筛查程序标记这些变体设计为威胁的能力存在巨大差异。其中两个表现相当不错,一个表现参差不齐,另一个则让大多数设计通过了筛查。三个软件包根据这一性能进行了更新,显著提高了其识别变体的能力。
所有四种筛查软件都存在一个明显趋势:变体与原始结构越接近,软件(修补前和修补后)就越有可能将其标记为威胁。在所有情况下,还存在一组不太可能折叠成类似结构的变体设计,这些设计通常不会被标记为威胁。
威胁评估与实际影响
预测结构与实际功能的差距
需要强调的是,这一评估基于预测的结构;"不太可能"折叠成与原始毒素类似的结构并不意味着这些蛋白质作为毒素会失去活性。在这组蛋白质中,功能性蛋白质可能非常罕见,但可能存在少数几个。这些少数蛋白质也可能足够罕见,以至于你必须订购和测试太多的设计才能找到一个有效的,这使得这种方法成为一种不切实际的威胁载体。
同时,也有一些蛋白质与毒素结构非常相似,但未被软件标记。对于三个修补过的软件版本,在"非常相似"类别中,通过筛查的设计约占1%到3%。这虽然不够理想,但可能足够好——任何试图通过这种方法订购毒素的团体都会引起注意,因为他们必须订购50多个设计才有很大机会找到一个通过筛查的,这会引起各种警报。
威胁的集中性与特异性
值得注意的是,未被标记的设计大多是少数几种毒素蛋白质的变体。因此,这更像是筛查软件的一组小而集中的问题,而非普遍性问题。值得注意的是,产生大量未被标记变体的蛋白质之一本身并不具有毒性;相反,它是实际毒素发挥作用的必需辅因子。因此,一些筛查软件甚至没有将原始蛋白质标记为危险,更不用说其任何变体了。(由于这些原因,其中一个性能较好的软件包的制造商认为这里的威胁不够严重,不值得发布安全补丁。)
未来展望与防护建议
AI蛋白质设计的发展趋势
虽然这项研究本身目前没有构成重大威胁,但它很有价值,因为它促使设计筛查软件的人员开始思考新兴威胁。正如这项工作背后的研究人员所指出的,AI蛋白质设计仍处于早期阶段,我们可能会看到相当大的改进。而且,我们可能能够筛查的内容存在限制。
我们目前已经达到这样的阶段:AI蛋白质设计工具可以创造具有全新功能的蛋白质,而且无需从现有蛋白质的变体开始。换句话说,我们可以设计出基于与已知威胁的相似性无法筛查的蛋白质,因为它们看起来一点也不像我们知道的危险物质。
生物安全防护系统的改进方向
蛋白质毒素将非常难以设计,因为它们必须穿过细胞膜,然后在内部做一些危险的事情。虽然目前的AI工具可能无法设计出如此复杂的东西,但我不会排除它们最终达到这种复杂程度的可能性。
面对这一新兴挑战,生物安全防护系统需要采取以下改进措施:
开发基于功能的筛查方法:当前的筛查主要基于序列相似性,未来需要开发能够评估蛋白质潜在功能的方法,而不仅仅是结构相似性。
建立AI设计蛋白质数据库:收集已知的AI设计蛋白质变体,建立专门的数据库,用于筛查和识别潜在威胁。
多层级筛查系统:结合多种筛查工具和方法,提高对AI设计蛋白质的识别能力,减少漏检率。
持续更新筛查算法:随着AI蛋白质设计技术的发展,不断更新和改进筛查算法,保持防护系统的有效性。
加强国际合作:生物安全是全球性问题,需要各国共同应对,建立国际协作机制,共享威胁信息和防护技术。
结论
AI蛋白质设计技术为生物医学研究带来了革命性的进步,同时也对生物安全防护系统提出了新的挑战。虽然目前AI设计的蛋白质毒素对现有筛查系统的威胁尚不构成重大风险,但随着技术的不断发展,这一问题可能会变得更加突出。研究团队的发现为生物安全领域敲响了警钟,促使我们重新思考和完善生物威胁筛查体系。
面对这一新兴技术带来的双刃剑效应,科学界、产业界和政策制定者需要共同努力,在促进技术创新的同时,确保生物安全防护系统能够与时俱进,有效应对未来可能出现的生物威胁。这不仅关乎科学研究的发展,更关系到全球公共卫生安全和社会稳定。