前沿人工智能透明化的必要性:构建安全、负责且可信赖的未来
在人工智能(AI)技术以前所未有的速度发展的当下,关于其潜在益处(例如,药物发现加速、公共服务高效交付以及国家安全功能强化)的讨论日益增多。然而,随着AI能力的增强,对其可能带来的风险的担忧也日益加剧。为了在充分利用AI潜力的同时,减轻潜在危害,对前沿AI的开发和部署采取透明化措施至关重要。本文旨在探讨前沿AI透明化的必要性,并提出一个可行的框架,以确保这项强大技术能够安全、负责且合乎道德地发展。
AI透明化的紧迫性
正如《纽约时报》在2025年6月5日发表的一篇评论文章中强调的那样,AI领域的透明化需求迫在眉睫。在行业、政府和学术界共同努力制定统一的安全标准和评估方法之际,我们需要采取临时措施,以确保最强大的人工智能系统以安全、负责和透明的方式开发。这种紧迫性源于AI技术快速演变的性质,以及其可能对社会产生的深远影响。
目标明确的透明化框架
为了应对这一挑战,我们提出了一个有针对性的透明化框架,该框架可在联邦、州或国际层面实施。该框架仅适用于最大的AI系统和开发者,并为其安全实践建立清晰的披露要求。我们的方法旨在避免过度规范,认识到AI科学的不断发展意味着任何监管工作都必须保持轻量化和灵活性。至关重要的是,透明化措施不应阻碍AI创新,也不应减缓我们实现AI益处的能力。
避免不必要的限制
考虑到技术变革的步伐,僵化的政府标准可能会适得其反。正如斯坦福大学人类中心人工智能研究所(HAI)的报告所指出的那样,评估方法在几个月内就会过时。因此,我们提出的框架旨在实现透明化与创新之间的平衡,确保安全措施不会扼杀AI进步。
AI透明化的最低标准
我们认为,以下核心原则应指导AI透明化政策:
1. 限制对最大模型开发者的适用范围
AI透明化应仅适用于构建最强大模型(即前沿模型)的最大前沿模型开发者。前沿模型的区分标准是计算能力、计算成本、评估性能以及年度收入和研发投入的综合阈值。为了避免给初创企业生态系统和小型开发者带来负担,该框架应包括对国家安全风险较低或造成灾难性危害风险较低的模型的适当豁免。我们欢迎初创企业社区就这些阈值应如何设定提供意见。在内部,我们讨论了以下阈值示例:年度收入cutoff金额约为1亿美元;或研发或资本支出约为每年10亿美元。这些范围界定阈值应随着技术和行业格局的演变而定期审查。
2. 创建安全开发框架
要求受监管的前沿模型开发者制定安全开发框架,阐述他们将如何评估和降低模型中不合理的风险。这些风险必须包括化学、生物、放射和核危害的产生,以及由未对齐的模型自主性造成的危害。由于安全开发框架仍是一种不断发展的安全工具,因此任何提案都应力求灵活性。
3. 公布安全开发框架
安全开发框架应在AI公司注册和维护的面向公众的网站上公开披露,但须对敏感信息进行合理的编辑保护。这将使研究人员、政府和公众能够随时了解当今部署的AI模型。披露应附带一份自我证明,证明实验室正在遵守其已发布的安全开发框架的条款。
4. 发布系统卡
系统卡或其他文档应总结所需的测试和评估程序、结果和缓解措施(但须对可能危及公共安全或模型安全和保障的信息进行适当的编辑)。系统卡还应在部署时公开披露,并在模型进行重大修改时进行更新。
5. 保护举报人,禁止虚假陈述
明确规定实验室对其框架的合规性撒谎是违法行为。这一澄清创建了一个明确的法律违规行为,使现有的举报人保护措施能够适用,并确保执法资源完全集中于从事有目的的不当行为的实验室。
6. 透明度标准
一个可行的AI透明度框架应具有一套最低标准,以便在适应AI开发不断发展的性质的同时,增强安全性和公共安全。鉴于AI安全和保障实践仍处于早期阶段,像Anthropic这样的前沿开发者正在积极研究最佳实践,因此任何框架都必须设计为可演进的。标准应从灵活、轻量级的要求开始,这些要求可以随着行业、政府和其他利益相关者之间达成共识的最佳实践的出现而进行调整。
行业最佳实践的基准
这种透明化方法揭示了行业在安全方面的最佳实践,并有助于设定负责任的实验室如何训练其模型的基准,确保开发者达到基本的问责标准,同时使公众和政策制定者能够区分负责任和不负责任的做法。例如,我们在此处描述的安全开发框架类似于Anthropic自己的负责任扩展策略以及来自领先实验室的其他策略(Google DeepMind、OpenAI、Microsoft),所有这些实验室都已经实施了类似的方法,同时发布了前沿模型。将安全开发框架透明度要求纳入法律不仅可以标准化行业最佳实践,而不会将其固定下来,还可以确保披露(现在是自愿的)将来不会随着模型变得更加强大而被撤回。
促进知情决策
关于AI模型是否以及何时可能构成灾难性风险的观点各不相同。安全开发框架和系统卡的透明度要求可以帮助政策制定者获得他们需要的证据,以确定是否需要进一步监管,并向公众提供有关这项强大新技术的宝贵信息。
抓住机遇,减轻风险
随着模型的进步,我们拥有前所未有的机会来加速科学发现、医疗保健和经济增长。如果没有安全和负责任的开发,一次灾难性的失败可能会使进展停滞数十年。我们提出的透明度框架提供了一个切实可行的第一步:公开了解安全实践,同时保持私营部门交付AI变革潜力的敏捷性。
总之,前沿AI透明化对于确保这项强大技术以安全、负责和合乎道德的方式发展至关重要。通过实施有针对性的透明化框架,并坚持最低标准,我们可以促进创新,减轻潜在风险,并为所有人释放AI的变革潜力。