前沿AI透明化的必要性：构建安全、负责且具问责制的未来

在人工智能（AI）技术飞速发展的当下，前沿AI的透明化需求日益凸显。为了确保这项强大技术的公共安全和企业责任，我们需要采取积极措施。尽管行业、政府和学术界都在努力制定统一的安全标准和全面的评估方法，但这一过程可能需要数月甚至数年的时间。因此，我们迫切需要过渡性措施，以保证超强人工智能的安全、负责和透明发展。

前沿AI透明化框架的构建

我们提议建立一个有针对性的透明化框架，该框架可在联邦、州或国际层面应用，并且仅适用于最大型的人工智能系统和开发者。该框架将明确规定安全实践的披露要求，从而避免过度规范。我们认识到，随着人工智能科学的不断发展，任何监管工作都必须保持轻量化和灵活性。不应阻碍人工智能的创新，也不应减缓我们实现人工智能益处的能力，包括拯救生命的药物发现、公共福利的快速交付以及关键的国家安全功能。 鉴于技术变革的快速步伐，僵化的政府标准尤其会适得其反，因为评估方法在几个月内就会过时。

A building with a set of columns

人工智能透明化的最低标准

以下是我们认为应指导人工智能透明化政策的核心原则：

限制对最大模型开发者的应用：人工智能透明化应仅适用于构建最强大模型的最大型前沿模型开发者。前沿模型的区分标准应包括计算能力、计算成本、评估性能、年度收入和研发的综合阈值。为了避免启动生态系统和小型开发者因对国家安全构成低风险或造成灾难性危害的模型而负担过重，该框架应包括对小型开发者的适当豁免。我们欢迎初创企业社区就这些阈值应如何设定的意见。内部讨论中，我们讨论了以下阈值示例：年度收入截止金额约为1亿美元；或年度研发或资本支出约为10亿美元。这些范围界定阈值应随着技术和行业格局的发展而定期审查。
创建安全开发框架：要求受监管的前沿模型开发者制定安全开发框架，详细说明他们将如何评估和降低模型中不合理的风险。这些风险必须包括化学、生物、放射性和核危害的产生，以及模型自主性错位造成的危害。安全开发框架仍是一种不断发展的安全工具，因此任何提案都应力求灵活性。
公开安全开发框架：安全开发框架应在人工智能公司注册和维护的面向公众的网站上公开，但须对敏感信息进行合理的编辑保护。这将使研究人员、政府和公众能够随时了解当今部署的人工智能模型。披露应附带一份自我认证，证明实验室符合其发布的《安全开发框架》的条款。
发布系统卡：系统卡或其他文档应总结所需的测试和评估程序、结果和缓解措施（但须对可能损害公共安全或模型安全和安全的信息进行适当的编辑）。系统卡还应在部署时公开披露，并在模型进行重大修订时进行更新。
通过禁止虚假陈述来保护举报人：明确规定，实验室对其框架的遵守情况撒谎是违法行为。这一澄清规定了一项明确的法律违规行为，使现有的举报人保护措施能够适用，并确保执法资源完全集中在从事有目的不当行为的实验室上。
透明度标准：一个可行的人工智能透明度框架应具有一套最低标准，以便它可以在增强安全性和公共安全的同时适应人工智能开发的不断发展的性质。鉴于人工智能安全和保障实践仍处于早期阶段，像Anthropic这样的前沿开发人员正在积极研究最佳实践，因此任何框架都必须设计为可演进的。标准应从灵活、轻量级的要求开始，这些要求可以随着行业、政府和其他利益相关者之间达成共识的最佳实践的出现而进行调整。

这种透明化方法揭示了行业在安全方面的最佳实践，并有助于为负责任的实验室如何训练其模型设定基准，确保开发人员满足基本的问责制标准，同时使公众和决策者能够区分负责任和不负责任的做法。例如，我们在此处描述的安全开发框架类似于Anthropic自己的《负责任的扩展政策》以及来自领先实验室的其他政策（Google DeepMind、OpenAI、Microsoft），所有这些实验室都已实施类似的方法，同时发布前沿模型。将安全开发框架透明化要求纳入法律不仅可以标准化行业最佳实践，而无需将其固定下来，还可以确保披露（现在是自愿的）在模型变得更强大后不会在未来撤回。

关于人工智能模型是否以及何时可能构成灾难性风险，各方观点不一。安全开发框架和系统卡的透明度要求可以帮助决策者获得他们所需的证据，以确定是否需要进一步监管，并向公众提供有关这项强大的新兴技术的重要信息。

随着模型的进步，我们拥有前所未有的机会来加速科学发现、医疗保健和经济增长。如果没有安全和负责任的开发，一次灾难性失败可能会使进展停滞数十年。我们提议的透明度框架提供了一个切实可行的第一步： 公开了解安全实践，同时保持私营部门的敏捷性，以实现人工智能的变革潜力。

案例分析与数据佐证

以Anthropic为例，其《负责任的扩展政策》就是一个良好的开端。该政策详细说明了Anthropic如何评估和降低其AI模型中的风险，并公开披露了其安全实践。其他领先的AI实验室，如Google DeepMind、OpenAI和Microsoft，也已经实施了类似的框架，并在发布前沿模型的同时公开了相关信息。这些举措表明，行业内部已经开始重视AI的透明化和责任性。

然而，仅仅依靠自愿披露是不够的。正如文章所指出的，这些披露可能会在未来被撤回，尤其是在模型变得更加强大之后。因此，将安全开发框架透明化要求纳入法律是至关重要的。这将确保行业最佳实践得到标准化，并为AI的负责任发展奠定坚实的基础。

AI透明化框架的益处

一个有效的AI透明化框架可以带来诸多益处：

提高安全性：通过公开安全实践，可以促使AI开发者更加重视安全性，并采取更有效的措施来降低风险。
增强问责制：透明化可以使AI开发者对其行为负责，并接受公众的监督。
促进创新：通过促进行业最佳实践的交流，可以加速AI安全技术的发展，并为AI创新创造更安全的环境。
建立信任：透明化可以帮助建立公众对AI的信任，并促进AI技术的广泛应用。

结论与展望

前沿AI的透明化是确保这项技术安全、负责和具有问责制的关键。我们提出的透明化框架是一个切实可行的第一步，它可以帮助我们实现这些目标。通过采纳这一框架，我们可以确保AI在为社会带来巨大益处的同时，不对我们的安全和福祉构成威胁。

在未来，我们还需要不断完善AI透明化框架，以适应AI技术的快速发展。我们需要探索新的方法来评估和降低AI风险，并确保AI的开发和应用符合我们的价值观和伦理原则。

只有通过共同努力，我们才能确保AI的未来是光明的，而不是黑暗的。