前沿AI透明度:保障安全与创新的关键

0

在人工智能技术飞速发展的今天,前沿人工智能(Frontier AI)的开发透明度问题日益凸显,它不仅关乎公众安全,也直接影响着开发企业的责任担当。2025年7月7日发布的这份报告,深刻阐述了为何我们需要更加透明的前沿人工智能,并提出了一个有针对性的透明度框架,旨在确保这项强大技术在安全、负责任且透明的环境下发展。

null

透明度框架的核心要义

该框架并非旨在事无巨细地规定所有细节,而是着眼于在人工智能科学不断发展的同时,保持监管的灵活性和轻量化。其根本目的在于,既不阻碍人工智能的创新,也不延缓其惠及人类的进程,包括拯救生命的药物发现、公共福利的快速实现以及关键的国家安全职能。考虑到技术变革的迅猛速度,僵化的政府标准可能会适得其反,因为评估方法可能在短短几个月内就过时。

人工智能透明度的最低标准

以下是我们认为应该指导人工智能透明度政策的核心原则:

  • 仅限于最大的模型开发者: 人工智能透明度应仅适用于构建最强大模型的最大前沿模型开发者。这些前沿模型的区分标准应包括计算能力、计算成本、评估性能以及年度收入和研发的综合阈值。为了避免给初创企业生态系统和小型开发者带来负担,对于那些对国家安全或造成灾难性危害风险较低的模型,该框架应包括适当的豁免。我们欢迎初创企业社区就这些阈值应如何设定提供意见。内部讨论中,我们探讨了以下阈值示例:年度收入cutoff金额约为1亿美元;或年度研发或资本支出约为10亿美元。这些范围界定阈值应随着技术和行业格局的演变而定期审查。
  • 创建安全开发框架: 要求受监管的前沿模型开发者制定一个安全开发框架,详细说明他们将如何评估和降低模型中不合理的风险。这些风险必须包括化学、生物、放射性和核危害的产生,以及由模型自主性错位造成的危害。安全开发框架仍然是一种不断发展的安全工具,因此任何提案都应力求灵活性。
  • 公开安全开发框架: 安全开发框架应在人工智能公司注册和维护的面向公众的网站上公开,但可对敏感信息进行合理的编辑保护。这将使研究人员、政府和公众能够随时了解当今部署的人工智能模型。披露应附带一份自我证明,证明实验室正在遵守其发布的《安全开发框架》的条款。
  • 发布系统卡: 系统卡或其他文档应总结所需的测试和评估程序、结果和缓解措施(但须对可能危及公共安全或模型安全性的信息进行适当的编辑)。系统卡还应在部署时公开披露,并在模型进行重大修改时进行更新。
  • 通过禁止虚假陈述来保护举报人: 明确规定,实验室对其框架的合规性撒谎是违法行为。这一澄清创建了一个明确的法律违规行为,使现有的举报人保护措施能够适用,并确保执法资源完全集中在从事有目的不当行为的实验室上。
  • 透明度标准: 一个可行的人工智能透明度框架应具有一套最低标准,以便在适应人工智能发展演变性质的同时,加强安全和公共安全。鉴于人工智能安全实践仍处于早期阶段,Anthropic等前沿开发者正在积极研究最佳实践,因此任何框架都必须为演变而设计。标准应从灵活、轻量级的要求开始,随着行业、政府和其他利益相关者之间形成共识最佳实践,这些要求可以不断调整。

透明度框架的益处与影响

这种透明度方法有助于揭示行业在安全方面的最佳实践,并为负责任的实验室如何训练其模型设定基准,确保开发者达到基本的问责标准,同时使公众和政策制定者能够区分负责任和不负责任的做法。例如,我们在此描述的安全开发框架类似于Anthropic自己的“负责任扩展政策”以及来自领先实验室的其他政策(Google DeepMindOpenAIMicrosoft),所有这些实验室都已在发布前沿模型的同时实施了类似的方法。将安全开发框架透明度要求纳入法律,不仅可以标准化行业最佳实践,而无需将其固定不变,还可以确保这些披露(现在是自愿的)将来不会随着模型变得更加强大而被撤回。

对于人工智能模型是否以及何时可能构成灾难性风险,各方观点不一。安全开发框架和系统卡的透明度要求可以帮助政策制定者获得他们所需的证据,以确定是否需要进一步监管,并向公众提供有关这项强大的新技术的重要信息。

随着模型的进步,我们拥有前所未有的机会来加速科学发现、医疗保健和经济增长。如果没有安全和负责任的开发,一次灾难性的失败可能会使进展停滞数十年。我们提出的透明度框架提供了一个务实的第一步: 公众可以了解安全实践,同时保持私营部门的敏捷性,以发挥人工智能的变革潜力。

案例分析:Anthropic的实践

Anthropic作为一家领先的人工智能研究机构,其“负责任扩展政策”是安全开发框架的典型代表。该政策详细规定了Anthropic如何评估和降低其AI模型中的风险,包括潜在的化学、生物、放射性和核危害,以及模型自主性错位造成的危害。通过公开其安全开发框架,Anthropic不仅向公众展示了其对安全的承诺,也为其他AI开发者树立了榜样。

数据佐证:透明度与安全性的关系

有研究表明,AI系统的透明度与其安全性之间存在正相关关系。更透明的系统更容易被审查和测试,从而更容易发现和修复潜在的安全漏洞。此外,透明度还可以促进公众对AI技术的信任,从而为AI的广泛应用创造更有利的环境。

应对挑战:透明度框架的局限性

尽管透明度框架具有诸多优点,但我们也必须认识到其局限性。例如,过度透明可能会泄露敏感信息,从而被恶意行为者利用。此外,透明度框架的实施也需要付出一定的成本,这可能会对小型AI开发者造成负担。因此,在设计透明度框架时,我们需要在透明度、安全性和成本之间取得平衡。

未来展望:持续演进的透明度标准

人工智能技术的发展日新月异,透明度标准也需要不断演进。未来,我们可以探索使用更先进的技术,如差分隐私和同态加密,来实现更高级别的透明度,同时保护敏感信息。此外,我们还可以借鉴其他行业的经验,如金融和医疗保健,来制定更完善的AI透明度框架。

结论

前沿人工智能的透明度是确保这项技术安全、负责任发展的关键。通过采纳本文提出的透明度框架,我们可以为AI创新创造一个更健康的环境,同时保护公众免受潜在的危害。虽然透明度框架并非万能,但它是我们朝着更安全、更可信的AI未来迈出的重要一步。只有通过持续的对话、合作和创新,我们才能充分发挥AI的潜力,同时最大限度地降低其风险。

随着人工智能技术的不断演进,我们需要不断调整和完善透明度框架,以适应新的挑战和机遇。通过共同努力,我们可以确保人工智能技术的发展符合人类的共同利益。