在科技飞速发展的今天,人工智能已经渗透到各个领域,包括蛋白质设计。最近,微软研究团队的一项发现引发了广泛关注:AI设计的蛋白质可能绕过现有的生物威胁筛查系统,形成所谓的"生物0日漏洞"。这一发现不仅揭示了生物安全系统的新脆弱性,也引发了对AI技术在生物领域应用边界的深入思考。
生物威胁筛查系统的现状
生物威胁形式多样,包括病毒、细菌等病原体,以及蛋白质毒素(如2003年寄往白宫的蓖麻毒素)和通过酶促反应产生的化学毒素。所有这些威胁都源于同一基本生物过程:DNA转录为RNA,再合成蛋白质。
过去几十年,获取特定DNA序列变得异常简单——只需在线订购,合成公司即可提供所需DNA。为应对潜在威胁,政府和产业界合作,在每份DNA订单中加入了筛查环节:扫描DNA序列,判断其是否编码被视为威胁的蛋白质或病毒片段。任何阳性结果都会被标记,由人工评估是否构成实际危险。
多年来,蛋白质清单和筛查算法不断更新,以应对研究进展。例如,最初的筛查基于与目标DNA序列的相似性。但许多DNA序列可编码相同蛋白质,因此筛查算法相应调整,能够识别所有构成相同威胁的DNA变体。
AI蛋白质设计的新挑战
最新研究可视为这一威胁的延伸。不仅多种DNA序列可编码同一蛋白质,多种蛋白质也能执行相同功能。例如,要形成毒素,通常需要蛋白质采用正确的三维结构,使蛋白质中几个关键氨基酸相互靠近。然而,在这些关键氨基酸之外,情况往往相当灵活。某些氨基酸可能完全不重要;蛋白质其他位置可能接受任何带正电荷的氨基酸或任何疏水性氨基酸。
过去,通过实验确定氨基酸链在保持功能性的同时可承受何种变化,极其耗时且昂贵。但新分析背后的团队认识到,AI蛋白质设计工具现已相当成熟,可预测远缘序列何时能折叠成相同形状并催化相同反应。虽然这一过程仍有错误,通常需要测试十多个或更多提议的蛋白质才能获得一个有效的,但已取得一些显著成功。
零日漏洞的发现与处理
团队首先进行了一项基本测试:使用AI工具设计蓖麻毒素的变体,然后测试用于筛查DNA订单的软件。测试结果表明,危险蛋白质变体可能绕过现有筛查软件,因此这种情况被视为相当于零日漏洞。
"借鉴既定网络安全流程处理此类情况的灵感,我们联系了相关机构,通报潜在漏洞,包括国际基因合成联盟以及蛋白质设计领域的可信同事,以及美国科学技术政策办公室、美国国家标准与技术研究院、美国国土安全部和美国大流行病准备与应对办公室的生物安全负责人。"作者报告称,"在这些机构之外,细节被保密,直到能够进行更全面的研究,以寻求可能的缓解措施并开发和部署'补丁'..."
原始测试的细节现已公布,作为一项更大分析的一部分,该方法扩展到了多种有毒蛋白质。研究从72种毒素开始,使用三个开源AI包生成了约75,000个潜在蛋白质变体。
筛选与评估的复杂性
评估这75,000种设计面临挑战。许多AI设计的蛋白质变体最终可能无功能,要么微妙地,要么灾难性地未能折叠成正确结构以形成活性毒素。只有通过实际制造和生物学测试才能确定哪些有效;大多数AI蛋白质设计工作会从数十到数百个最有前景的设计中实际制造蛋白质,以找到少数具有活性的。但对75,000种设计进行测试完全不切实际。
相反,研究人员使用两种基于软件的工具评估了每种设计。一种关注蛋白质整体预测物理结构之间的相似性,另一种查看单个氨基酸位置的预测差异。无论哪种方式,它们都是两种氨基酸链形成的蛋白质相似程度的粗略近似。但它们肯定不是这两种蛋白质功能是否相当的明确指标。
无论如何,编码所有75,000种设计的DNA序列被输入用于筛查DNA订单的软件。非常清楚的是,四种筛查程序标记这些变体设计为威胁的能力存在巨大差异。其中两个似乎做得相当好,一个表现参差不齐,另一个让大多数变体通过。三个软件包根据这一性能进行了更新,显著提高了识别变体的能力。
所有四个筛查软件包都有一个明显趋势:变体与原始结构越接近,软件包(修补前和修补后)就越有可能将其标记为威胁。在所有情况下,还存在一组不太可能折叠成类似结构的变体设计,这些通常不被标记为威胁。
结果与意义分析
需要强调的是,这一评估基于预测结构;"不太可能"折叠成与原始毒素类似的结构并不意味着这些蛋白质作为毒素会失活。功能性蛋白质在这组中可能非常罕见,但可能存在少数几个。这少数几个也可能足够罕见,以至于必须订购和测试太多设计才能找到有效的,这使得这种威胁向量不切实际。
同时,也存在一些与毒素结构非常相似但未被软件标记的蛋白质。对于三个修补版本,筛选遗漏的"非常相似"类别蛋白质约占总数的1%到3%。这不算理想,但可能足够好,以至于任何尝试通过此方法订购毒素的团体都会引起注意,因为他们需要订购50多个才有良好机会找到一个遗漏的,这会引起各种警报。
另一个值得注意的是,未被标记的设计主要是少数几种毒素蛋白的变体。因此,这更像是筛查软件的一小组特定问题,而非普遍问题。值得注意的是,产生大量未标记变体的蛋白质之一本身不具有毒性;相反,它是实际毒素发挥作用所需的辅因子。因此,一些筛查软件甚至没有将原始蛋白质标记为危险,更不用说其任何变体了。(由于这些原因,其中一个表现较好的软件包制造商认为这里的威胁不值得安全修补。)
未来发展与挑战
单独来看,这项研究似乎没有立即识别出重大威胁。但它可能很有用,因为它促使设计筛查软件的人员开始思考新兴威胁。
正如这项工作背后的研究人员指出的,AI蛋白质设计仍处于早期阶段,我们可能会看到显著改进。而且,我们可能能够筛查的事物类型存在限制。我们已经达到AI蛋白质设计工具可用于创造具有全新功能的蛋白质的程度,且无需从现有蛋白质变体开始。换句话说,我们可以设计蛋白质,这些蛋白质无法基于与已知威胁的相似性进行筛查,因为它们看起来一点也不像我们所知的有害物质。
基于蛋白质的毒素将非常难以设计,因为它们必须穿过细胞膜,然后在内部做危险的事情。虽然AI工具目前可能无法设计如此复杂的东西,但我不会排除它们最终达到这种复杂性的可能性。
生物安全系统的应对策略
面对AI蛋白质设计带来的新挑战,生物安全系统需要采取多层次的应对策略:
持续更新筛查算法:随着AI蛋白质设计能力的提升,筛查算法必须不断更新,以识别新的威胁模式。这需要学术界、产业界和政府机构的密切合作。
多维度筛查方法:不应仅依赖序列相似性,而应结合蛋白质结构预测、功能预测和潜在风险评估等多维度方法进行筛查。
建立AI蛋白质设计监测系统:开发专门用于监测AI设计蛋白质潜在风险的系统,及早发现可能的漏洞。
国际合作与信息共享:生物威胁是全球性问题,需要国际社会建立有效的信息共享机制,共同应对新兴挑战。
伦理与法规建设:制定明确的伦理准则和法规框架,规范AI在蛋白质设计等敏感领域的应用,防止技术滥用。
结论
AI蛋白质设计技术的快速发展为生物医学研究带来了革命性机遇,同时也对生物安全系统提出了新的挑战。微软研究团队发现的"生物0日漏洞"提醒我们,技术进步与安全防御之间需要保持动态平衡。
虽然当前发现的漏洞尚未构成重大威胁,但这一发现具有重要的预警意义。它促使我们重新思考生物安全防御系统的设计理念,从被动应对转向主动预防,从单一防御转向多层次、全方位的安全体系。
随着AI技术的不断进步,生物安全领域将面临更多未知挑战。只有通过持续创新、多方协作和前瞻性思考,我们才能确保AI技术在造福人类的同时,不会带来不可控的风险。生物安全不仅关乎技术问题,更关乎人类共同福祉,需要全球范围内的共同努力和智慧。