在科技飞速发展的今天,人工智能正以前所未有的速度重塑各个领域。蛋白质设计,这一曾经需要数十年实验研究的复杂科学,如今在AI的助力下变得前所未有的便捷。然而,这项技术的突破性进展也带来了一个令人不安的问题:我们是否正在打开一扇潘多拉魔盒?
生物威胁筛查系统的演变
生物威胁形式多样,包括病毒、细菌等病原体,以及蓖麻毒素等蛋白质毒素,还有通过酶促反应产生的化学毒素。所有这些威胁都源于同一基本生物过程:DNA转录为RNA,进而合成蛋白质。
过去几十年,获取所需DNA序列变得异常简单——只需在线订购,合成公司便会将定制序列送达。然而,这一便捷性也带来了潜在风险。为应对此问题,政府和产业界合作建立了DNA订单筛查系统,每个DNA序列都会被扫描,以确定其是否编码威胁性蛋白质或病毒片段。任何可疑订单都会被标记,供人工评估其潜在危险性。
多年来,筛查蛋白质列表和扫描技术不断更新。例如,最初筛查基于与目标DNA序列的相似性。但考虑到多种DNA序列可编码同一蛋白质,筛查算法相应调整,能够识别所有构成相同威胁的DNA变体。
AI带来的新挑战
微软研究团队的新发现,将这一威胁概念进一步延伸。不仅多种DNA序列可编码同一蛋白质,多种蛋白质也能执行相同功能。例如,要形成毒素,蛋白质通常需要采取正确的三维结构,使关键氨基酸残基相互靠近。然而,在这些关键氨基酸之外,序列往往具有高度灵活性——某些位置可能对任何氨基酸都适用,而其他位置可能接受任何带正电荷的疏水性氨基酸。
过去,通过实验确定氨基酸序列变化的耐受范围极为耗时且昂贵。但AI蛋白质设计工具已变得相当成熟,能够预测远缘序列是否可折叠成相同结构并催化相同反应。尽管这一过程仍有误差,通常需要测试十多个候选蛋白才能获得一个功能正常的版本,但它已取得了显著成功。
基于这一观察,研究团队提出假设:AI可对现有毒素进行改造,设计出功能相同但序列差异巨大的蛋白质变体,使现有筛查程序无法检测到编码这些变体的DNA订单。
零日漏洞的发现与应对
研究团队首先进行了一项基础测试:使用AI工具设计蓖麻毒素的变体,然后测试用于筛查DNA订单的软件。结果表明,危险蛋白质变体有可能绕过现有筛查软件,这一情况被当作零日漏洞处理。
"借鉴解决此类情况既定网络安全流程,我们联系了相关机构,包括国际基因合成联盟、蛋白质设计领域的可信同事以及美国科学技术政策办公室、美国国家标准与技术研究院、美国国土安全部和疫情防范与应对办公室的生物安全负责人。"研究团队报告称,"在这些机构之外,细节一直保密,直到能进行更全面研究,以制定可能的缓解措施和'补丁'...并开发和部署。"
原始测试的细节现已公布,作为更广泛分析的一部分,该方法被扩展到多种有毒蛋白质。研究团队从72种毒素开始,使用三个开源AI包生成了约75,000个潜在蛋白质变体。
筛查软件的表现评估
评估这些AI设计的蛋白质变体面临一个挑战:其中许多可能最终无功能,无法正确折叠成活性毒素。唯一确定哪些蛋白质有效的方法是实际合成并测试它们。然而,对75,000种设计进行生物测试完全不切实际。
相反,研究人员使用两种基于软件的工具评估了所有75,000种设计。一种工具关注蛋白质整体预测物理结构的相似性,另一种则考察单个氨基酸位置预测差异。这两种方法都是对两种氨基酸序列形成的蛋白质相似程度的粗略估计,但并非明确指示这两种蛋白质是否具有同等功能。
将编码所有75,000种设计的DNA序列输入筛查软件后,一个明显现象是:四种筛查程序标记这些变体设计为威胁的能力存在巨大差异。其中两种表现良好,一种表现中等,另一种则让大多数设计通过。三种软件包已根据这一性能进行了更新,显著提高了其识别变体的能力。
所有四种筛查软件都呈现一个明显趋势:变体与原始毒素结构越相似,软件(修补前后)就越有可能将其标记为威胁。在所有情况下,都有一组变体设计不太可能折叠成类似结构,这些通常未被标记为威胁。
威胁的实际评估
需要强调的是,这一评估基于预测结构;"不太可能"折叠成类似原始毒素的结构并不意味着这些蛋白质作为毒素会失活。功能性蛋白质在这一组中可能非常罕见,但可能存在少数几种。这些少数蛋白质也可能足够罕见,以至于必须设计和测试大量变体才能找到一个有效的,这使得这种威胁向量不切实际。
同时,也存在一些与毒素结构非常相似但未被软件标记的蛋白质。对于三种修补后的软件版本,在"非常相似"类别中,约有1%到3%的变体能绕过筛查。这并不理想,但可能足够好,以至于任何试图通过此方法订购毒素的团体都会引起注意——他们需要订购50多个才有较大机会找到一个绕过筛查的,这会引发各种警报。
另一个显著结果是,未被标记的设计主要来自少数几种毒素蛋白的变体。因此,这更像是筛查软件的一组小而集中的问题,而非普遍问题。值得注意的是,产生大量未被标记变体的蛋白质之一本身并不具有毒性;相反,它是实际毒素发挥作用所需的辅助因子。因此,一些筛查软件甚至没有将原始蛋白质标记为危险,更不用说其变体了。(由于这些原因,一家生产较优性能软件包的公司认为这里的威胁不够严重,不值得发布安全补丁。)
未来展望与应对策略
就目前而言,这项研究并未识别出构成重大威胁的问题。然而,它可能很有价值,因为它促使负责开发筛查软件的人员开始思考新兴威胁。
正如这项研究背后的团队所指出的,AI蛋白质设计仍处于早期阶段,我们可能会看到显著改进。同时,我们能够筛查的内容可能存在限制。我们已经达到这样的阶段:AI蛋白质设计工具可创建具有全新功能的蛋白质,且无需从现有蛋白质变体开始。换句话说,我们可以设计出基于与已知威胁相似性无法筛查的蛋白质,因为它们与我们已知的任何危险物质看起来完全不同。
基于蛋白质的毒素将非常难以设计,因为它们必须穿过细胞膜,然后在内部发挥危险作用。虽然AI工具目前可能无法设计出如此复杂的东西,但我不会排除它们最终达到这种复杂性的可能性。
平衡创新与安全
这一发现提醒我们,在AI技术飞速发展的今天,必须更加重视生物安全防护。我们需要建立更加灵活、适应性强的筛查系统,能够识别新型、非传统的生物威胁。同时,科学家和政策制定者需要密切合作,制定前瞻性的监管框架,在促进科学创新的同时,防范潜在风险。
AI蛋白质设计的双刃剑效应日益凸显:它既可能带来革命性的医疗突破,也可能被误用于危险目的。如何引导这项技术向有益于人类的方向发展,是我们面临的重要课题。这不仅需要技术层面的改进,还需要全球范围内的合作与共识。
结语
生物安全与科技创新之间的平衡永远是一个动态过程。AI蛋白质设计的零日漏洞提醒我们,安全防护必须与技术发展同步演进。正如网络安全领域不断面临新的挑战一样,生物安全领域也需要持续创新和适应。通过前瞻性研究和国际合作,我们有望在享受AI带来的科学红利的同时,有效管理潜在风险,确保技术进步真正造福人类。