前沿人工智能(Frontier AI)正以惊人的速度迭代演进,其在科学发现、医疗健康、经济增长乃至国家安全等领域展现出前所未有的潜力。然而,伴随其颠覆性能力而来的,是复杂且难以预见的风险,例如潜在的系统性错误、误用风险,甚至是引发灾难性后果的可能性。在各国政府、学术界和产业界仍在努力制定统一的安全标准和评估方法的漫长过程中,我们急需采取一些过渡性措施,以确保这些极其强大的AI系统在开发过程中能够遵循安全、负责和透明的原则。
为此,我们提出了一项具有针对性的透明度框架。该框架旨在联邦、州或国际层面应用,其核心思想是聚焦于规模最大、能力最强的人工智能系统及其开发者,并为其安全实践设定明确的披露要求。这项方案刻意避免了过度僵化的规定,我们深知AI科学与技术日新月异,任何监管努力都必须保持轻量化和高度灵活性,以适应这种快速变化。过度严格的标准不仅会阻碍AI领域的创新活力,更可能减缓我们实现AI所能带来的巨大益处的步伐,例如挽救生命的药物发现、公共服务的快速交付以及关键的国家安全功能。鉴于技术变革的速度,僵化的政府强制标准尤其会适得其反,因为评估方法可能在数月内即告过时,无法跟上技术发展的步伐。因此,一个既能保障安全又能促进创新的平衡路径至关重要,透明度正是实现这一平衡的关键杠杆。
AI透明度政策的核心原则
我们深信,以下核心原则应作为引导AI透明度政策的基石,确保其既具操作性又能有效提升公共安全。
限定范围:聚焦大型模型开发者
AI透明度政策的适用范围应严格限定在开发最具能力的前沿模型的少数大型企业。这些前沿模型可以通过综合考量计算能力、研发投入、评估表现、年度收入以及研发开支等阈值来界定。此举旨在避免对新兴的初创企业生态系统和小型开发者造成不必要的负担,因为这些公司的模型在国家安全或引发灾难性损害方面的风险相对较低。我们鼓励初创社区积极参与讨论,共同确定合理的阈值标准。例如,内部讨论曾提及年收入达到1亿美元的门槛,或者年度研发或资本支出达到10亿美元左右的水平。这些划定范围的阈值应随着技术和行业格局的演变而进行周期性审查,确保其始终与行业实际相符,精准覆盖最具影响力的主体。
确立安全开发框架
要求受覆盖的前沿模型开发者建立并执行一个健全的“安全开发框架”(Secure Development Framework,SDF)。该框架应详细阐述其将如何系统地评估并有效缓解模型中存在的任何不合理风险。这些风险必须涵盖生物、化学、放射性和核能(CBRN)等潜在危害,以及由模型自主性失调所引发的损害,例如模型行为与人类意图不符,甚至产生意料之外的负面结果。此外,还应涵盖更广泛的社会风险,如偏见放大、错误信息传播、隐私泄露和关键基础设施的潜在破坏等。考虑到安全开发框架作为一个安全工具仍在不断演进和完善,任何相关提案都应力求保持高度的灵活性,允许开发者根据技术进步和最佳实践的涌现而调整其具体实施细则。
公开透明:安全开发框架的披露
安全开发框架应当向公众披露,但需在合理范围内对敏感信息进行适当的编辑和保护。这份关键文档应发布在由AI公司注册并维护的公共网站上,以便研究人员、政府机构和广大公众能够及时了解当前部署的AI模型所遵循的安全实践。公开披露的同时,开发者应提供一份自我认证声明,确认其实验室严格遵守了所公布的安全开发框架的各项条款。这种公开透明机制能够促使外部专家和公众对框架进行审查和反馈,从而形成一种有效的外部监督力量,进一步提升模型的安全性与可信度。同时,透明度也有助于建立公众对AI技术的信任,消弭不必要的恐慌和误解。
发布系统卡:模型评估与缓解措施摘要
除了安全开发框架,AI公司还应发布“系统卡”(System Card)或其他形式的规范性文档。这些文档应作为模型的“营养成分表”或“产品说明书”,精炼总结其测试和评估程序、详细的结果,以及为应对已识别风险所采取的所有缓解措施。与安全开发框架类似,系统卡也需要对可能危及公共安全或模型自身安全和敏感性的信息进行适当的编辑。系统卡应在模型部署时同步向公众披露,并且在模型进行重大修订后及时更新。这种持续性的披露机制确保了信息的时效性与准确性,使利益相关方能够持续了解模型的最新状态和安全特性,从而做出明智的决策,无论是进行学术研究、政策制定,还是终端用户选择使用服务。
保护举报人:构建内部监督机制
为了确保上述框架的有效执行和内部的问责机制,明确规定实验室就其遵守框架情况作出虚假陈述的行为构成违法,是至关重要的一步。这一法律上的明确界定将使得现有的举报人保护机制能够充分发挥作用,为那些发现并敢于揭露潜在不当行为的内部人员提供坚实的法律后盾。通过这种方式,执法资源能够精准聚焦于那些故意从事不当行为的实验室,从而有效遏制恶意欺诈行为。健全的举报人保护机制不仅能提升企业的内部治理水平,更能为AI系统的安全开发提供一道关键的防线,确保潜在的安全隐患能够被及时发现并纠正,最终保障公共利益。
透明度标准:演进与协作
一个切实可行的AI透明度框架必须包含一套最低限度的标准,这些标准旨在在增强安全性和公共安全的同时,充分适应AI开发不断演进的特性。鉴于当前AI安全和保障实践仍处于早期探索阶段,前沿开发者如Anthropic等公司正积极研究和建立最佳实践,任何框架的设计都必须具备高度的演进能力。初始阶段,标准应以灵活、轻量级的要求形式呈现,并能够随着行业、政府及其他利益相关方之间共识的最佳实践的涌现而动态调整。这种渐进式、协作式的演进路径,将确保透明度框架既能标准化行业内的负责任实践,又不会因过度僵化而扼杀创新,最终形成一套可持续、有效的AI治理模式。
透明度之于前沿AI发展的深远意义
这种基于透明度的管理方法,能够有效揭示行业内的最佳安全实践,并为负责任地训练模型设定一个基本基线。它确保开发者满足基本的问责标准,同时使公众和政策制定者能够清晰区分负责任与不负责任的开发行为。例如,本文所阐述的安全开发框架与领先实验室(如Google DeepMind、OpenAI和Microsoft)已实施的类似方法具有异曲同工之妙。将安全开发框架的透明度要求上升为法律规定,不仅能够标准化行业最佳实践而无需将其固化,还能确保这些目前自愿性的披露在未来模型能力日益强大的情况下不会被撤回,从而提供持续性的保障。
关于AI模型是否以及何时可能带来灾难性风险,各方观点不一。而安全开发框架和系统卡所要求的透明度,能够为政策制定者提供评估是否需要进一步监管的必要证据,并为公众提供关于这项强大新科技的重要信息。随着模型的不断发展,我们拥有前所未有的机遇来加速科学发现、医疗保健进步和经济增长。然而,若缺乏安全和负责任的开发,一次灾难性的失败便可能使数十年的进步戛然而止。我们提出的透明度框架提供了一个实用的第一步:在保持私营部门敏捷性以释放AI变革潜力时,实现对其安全实践的公众可见性,共同构建一个安全、负责、普惠的人工智能未来。