人工智能(AI)技术,尤其是那些被定义为“前沿”的系统,正以前所未有的速度发展,其影响力日益渗透到社会生活的各个层面。这些强大的人工智能模型具备改变世界的潜力,无论是加速药物发现、优化公共服务交付,还是增强国家安全能力。然而,伴随其巨大潜能的,是对潜在风险的深刻担忧,包括恶意使用、意外危害以及对社会结构造成的不可预见的影响。为了确保这项颠覆性技术能够安全、负责任且可持续地发展,并赢得公众的广泛信任,提升其开发过程和能力运行的透明度已成为当前最紧迫的议题之一。
当前,行业、政府、学术界及国际组织都在积极探索和制定AI安全标准与全面的评估方法。然而,这是一个漫长而复杂的过程,可能需要数月乃至数年的时间才能形成广泛共识并落地实施。在此过渡期,亟需采取一些行之有效的临时措施,以保障超大型人工智能系统的开发过程既安全又透明。本篇文章旨在深入剖析前沿AI透明度的重要性,并提出一个具有实践指导意义的透明度框架,该框架旨在联邦、州或国际层面均可适用,并专注于规范最大规模的AI系统及其开发者。
前沿AI透明度的核心诉求
透明度并非旨在遏制创新,而是为了引导创新走向负责任的未来。 我们所倡导的透明度策略,刻意避免了过度僵化的规定。这是因为人工智能科学与工程仍在快速演进,任何监管尝试都必须保持轻量化和高度灵活性,以适应技术迭代的速度。过于严格或过时的政府强制性标准,不仅可能阻碍AI技术的突破性进展,甚至可能延缓我们实现AI普惠价值的能力。例如,鉴于AI评估方法在数月内就可能过时,僵化的标准无疑将适得其反。
我们认为,一个切实可行的AI透明度政策应遵循以下核心原则:
适用范围:聚焦大型模型开发者
AI透明度要求应主要针对那些正在构建最具能力模型的前沿AI开发者。这些前沿模型可以通过计算能力、训练成本、评估性能、年收入及研发投入等多重门槛来界定。为了避免给初创企业和小型开发者带来不必要的负担——因为他们的模型对国家安全或造成灾难性损害的风险较低——框架应包含适当的豁免条款。例如,可以设定年度收入或研发投入达到特定量级(如年度收入一亿美元或年度研发投入十亿美元)的开发者才需遵守。这些范围界定阈值应根据技术和行业格局的演变进行定期审查,确保其始终与时代同步。
安全开发框架:风险评估与缓解
强制要求受管辖的前沿模型开发者建立并公开“安全开发框架”(Secure Development Framework,简称SDF)。SDF应详细阐述其如何评估和缓解模型中存在的各种不合理风险。这些风险必须涵盖生物、化学、放射性和核能(CBRN)等潜在的大规模杀伤性风险,以及由模型自主性失调所引发的危害。当前,SDF作为一种安全工具仍在不断发展完善,因此任何相关提案都应力求保持其灵活性,允许开发者在实践中不断优化其方法论。例如,框架可以要求开发者明确识别并分析模型在特定应用场景下可能带来的社会偏见、错误信息传播、隐私泄露等风险,并制定相应的预防和干预措施。这不仅仅是对技术能力的考量,更是对社会责任的担当。
公开披露机制:增强社会监督
除了内部的SDF,其核心内容应向公众披露。当然,敏感信息在合理范围内进行修订是允许的,以避免泄露可能被滥用的关键技术细节或商业机密。这些信息应发布在由AI公司注册并维护的公共网站上,确保研究人员、政府机构和广大公众能够及时了解当前部署的AI模型及其安全实践。同时,公司应提供一份自我认证声明,确认其正在遵守所发布的SDF条款。这种公开透明的机制,将极大地促进外部对AI安全实践的审查与监督,从而形成有效的社会约束力。
系统卡片:模型性能与安全概览
开发者还应发布“系统卡片”(System Card)或其他形式的文档,以简洁明了的方式总结模型的测试和评估程序、结果以及所采取的缓解措施。同样,对于可能危及公共安全或模型自身安全性的信息,可进行适当的修订。系统卡片应在模型部署时同步公开,并在模型进行重大修订后及时更新。通过系统卡片,用户和监管者可以快速获取模型的核心信息,理解其能力边界、潜在风险以及开发者为此所做的努力,从而作出更明智的决策和使用。
内部举报人保护:确保真实性与问责
明确规定,开发实验室如果对其遵守SDF的情况做出虚假陈述,将构成违法行为。这一法律明确性将使现有的举报人保护措施得以适用,并确保执法资源能够集中打击故意不当行为的实验室。建立健全的举报人保护机制,是确保透明度框架有效运行的基石,它能鼓励知情者勇敢揭露潜在的违规行为,从而防止隐瞒和欺诈,维护整个行业的诚信。
动态标准:适应技术演进
一个可行的AI透明度框架必须包含一套最低限度的标准,这些标准既能增强安全性和公共安全,又能适应AI开发不断变化的性质。鉴于AI安全和安全实践仍处于早期阶段,前沿开发者正在积极研究最佳实践,任何框架都必须设计为可演进的。标准应从灵活、轻量级的要求开始,随着行业、政府和其他利益相关者之间共识最佳实践的出现而逐步调整和完善。这种适应性是确保监管不落后于技术发展的关键,它允许在实践中不断学习和优化。
透明度实践的深远影响
我们提出的这种透明度方法,不仅能揭示行业在安全方面的最佳实践,还能为负责任的实验室如何训练和部署模型设定一个基准。它确保了开发者满足基本的问责标准,并使公众和政策制定者能够区分负责任和不负责任的行为。例如,上述的安全开发框架与行业内领先实验室已经实施的负责任扩展政策等不谋而合。将安全开发框架的透明度要求上升到法律层面,不仅能标准化行业最佳实践而无需将其固化,还能确保这些目前自愿的披露不会在模型变得更加强大之后被撤回。
提升公众信任与接受度
透明度是建立公众信任的有效途径。当社会了解AI模型的开发流程、安全措施和潜在风险时,他们更有可能接受并支持AI技术的应用。这种信任是AI技术得以广泛部署和产生积极社会影响的先决条件。缺乏透明度则可能导致公众对AI产生不必要的恐惧和抵触,从而阻碍其健康发展。
促进行业自律与最佳实践
透明度框架的实施将促使所有AI开发者,特别是大型机构,积极采纳和分享最佳安全实践。当一个实验室的SDF向公众开放,它将面临来自同行、研究人员和公众的审视,这无形中增加了其改进自身安全实践的动力。这种良性竞争和知识共享,将加速整个行业安全水平的提升。
赋能政策制定者与监管机构
关于AI模型何时以及是否可能构成灾难性风险,各方观点不一。而安全开发框架和系统卡片的透明度要求,将为政策制定者提供所需的证据基础,帮助他们判断是否需要进一步的法规。同时,这也为公众提供了关于这项强大新科技的重要信息,使其能够更理性地参与到AI治理的讨论中来。
平衡创新与风险:未来展望
随着模型不断进步,我们拥有前所未有的机遇来加速科学发现、改善医疗健康并推动经济增长。然而,若缺乏安全负责的开发,一次灾难性的失败就可能使AI的进步停滞数十年。我们提出的透明度框架提供了一个切实可行的第一步:它在保留私营部门敏捷性以释放AI变革潜力F的同时,确保了公众对安全实践的可见性。这是一种智慧的平衡,旨在最大化AI的益处,同时最小化其固有风险,为构建一个安全、繁荣的智能未来奠定坚实基础。