前沿AI透明度：安全、创新与公共利益的平衡之道

在人工智能（AI）技术飞速发展的今天，透明度已成为确保这项强大技术安全、负责任地发展的核心议题。尤其是在前沿AI领域，即那些具备极高计算能力和复杂算法的AI系统，其潜在影响力和风险也随之增大。因此，建立一套针对前沿AI的透明度框架，对于保障公共安全、促进行业健康发展至关重要。

前沿AI透明度的必要性

透明度的缺失可能导致严重的伦理和社会问题。例如，如果AI系统的决策过程不透明，那么在医疗、金融等关键领域的应用可能会产生不公平或歧视性的结果。此外，缺乏透明度还会阻碍公众对AI技术的信任，进而影响其广泛应用和创新。

为了应对这些挑战，我们需要在联邦、州或国际层面建立一个有针对性的透明度框架。这个框架应仅适用于那些构建最强大AI系统的开发者，并明确规定其安全实践的披露要求。

这种方法旨在避免过度规范，认识到AI科学的不断发展，任何监管措施都必须保持轻量级和灵活性。重要的是，透明度框架不应阻碍AI创新，也不应减缓我们实现AI益处的能力，包括拯救生命的药物发现、公共利益的快速交付以及关键的国家安全职能。鉴于评估方法在几个月内就会因技术变革而过时，僵化的政府标准尤其会适得其反。

AI透明度的最低标准

以下是我们认为应该指导AI透明度政策的核心原则：

限制应用于最大的模型开发者：人工智能透明度应仅适用于构建最强大模型的前沿模型开发者——前沿模型的区别在于计算能力、计算成本、评估性能、年收入和研发的组合阈值。为避免初创企业生态系统和小型开发商因对国家安全或造成灾难性危害风险较低的模型而负担过重，该框架应包括对小型开发商的适当豁免。我们欢迎初创企业社区就这些门槛应该是什么样的提供意见。在内部，我们讨论了以下关于门槛可能是什么样子的例子：年收入削减金额约为1亿美元；或研发或资本支出约为每年10亿美元。这些范围界定阈值应随着技术和行业格局的发展而定期审查。
创建安全开发框架：要求受监管的前沿模型开发人员拥有一个安全开发框架，该框架规定了他们将如何评估和减轻模型中不合理的风险。这些风险必须包括化学、生物、放射性和核危害的产生，以及由错位的模型自主性造成的危害。安全开发框架仍然是一种不断发展的安全工具，因此任何提案都应力求灵活性。
公开安全开发框架：安全开发框架应向公众公开，但须对敏感信息进行合理的编辑保护，并在人工智能公司注册和维护的面向公众的网站上公开。这将使研究人员、政府和公众能够随时了解当今部署的人工智能模型。披露应附带一份自我证明，证明该实验室正在遵守其发布的《安全开发框架》的条款。
发布系统卡：系统卡或其他文件应总结所需的测试和评估程序、结果和缓解措施（但须对可能危及公共安全或模型安全和安全的信息进行适当的编辑）。系统卡还应在部署时公开披露，如果模型经过重大修改，则应进行更新。
通过禁止虚假陈述来保护举报人：明确规定实验室谎报其框架的合规性是违反法律的行为。这项澄清创建了一个明确的法律违规行为，使现有的举报人保护措施得以适用，并确保执法资源完全集中在从事有目的不当行为的实验室上。
透明度标准：一个可行的人工智能透明度框架应具有一套最低标准，以便它可以在增强安全和公共安全的同时适应人工智能开发的不断发展的性质。鉴于人工智能安全和安全实践仍处于早期阶段，像Anthropic这样的前沿开发人员正在积极研究最佳实践，因此任何框架都必须为发展而设计。标准应从灵活、轻量级的要求开始，这些要求可以随着行业、政府和其他利益相关者之间达成共识的最佳实践而进行调整。

这种透明度方法揭示了行业在安全方面的最佳实践，并有助于为负责任的实验室如何训练其模型设定基准，确保开发人员满足基本的问责标准，同时使公众和政策制定者能够区分负责任和不负责任的做法。例如，我们在此描述的安全开发框架类似于Anthropic自己的《负责任的扩展政策》以及来自领先实验室的其他政策（Google DeepMind、OpenAI、Microsoft），所有这些实验室都已经实施了类似的方法，同时发布了前沿模型。将安全开发框架透明度要求纳入法律不仅可以标准化行业最佳实践，而不会将其固定下来，还可以确保披露（现在是自愿的）将来不会随着模型变得越来越强大而被撤回。

关于人工智能模型是否以及何时可能构成灾难性风险，各方观点不一。安全开发框架和系统卡的透明度要求可以帮助政策制定者获得他们所需的证据，以确定是否需要进一步的监管，并向公众提供有关这项强大的新技术的重要信息。

随着模型的进步，我们拥有前所未有的机会来加速科学发现、医疗保健和经济增长。如果没有安全和负责任的开发，一次灾难性的失败可能会使进展停滞数十年。我们提议的透明度框架提供了一个切实可行的第一步：公开了解安全实践，同时保持私营部门的灵活性，以实现人工智能的变革潜力。

A building with a set of columns

Anthropic的实践与展望

Anthropic等领先的AI实验室已经在积极探索和实践透明度措施。例如，Anthropic的“负责任的扩展政策”就是一个旨在确保AI系统安全和符合伦理标准的内部框架。通过公开这些框架，Anthropic希望能够为行业树立榜样，并促进行业最佳实践的形成。

此外，Anthropic还积极参与与政府、学术界和其他利益相关者的对话，共同制定AI安全标准和评估方法。这种合作对于确保透明度框架的有效性和适应性至关重要。

透明度框架的关键要素

一个有效的AI透明度框架应包含以下几个关键要素：

清晰的定义和范围：明确定义哪些AI系统属于“前沿AI”，并设定清晰的计算能力、成本和性能指标，以避免框架覆盖范围过于宽泛。
安全开发框架：要求AI开发者建立并公开其安全开发框架，详细说明如何评估和减轻AI系统可能带来的风险，包括但不限于化学、生物、放射性和核危害。
系统卡：要求AI开发者发布系统卡，总结AI系统的测试和评估程序、结果和缓解措施。系统卡应在AI系统部署时公开，并在系统进行重大修改时进行更新。
举报人保护：明确禁止AI实验室虚报其框架的合规性，并为举报违规行为的个人提供法律保护。
灵活的标准：认识到AI技术的快速发展，透明度标准应保持灵活性，并随着行业最佳实践的演进而不断调整。

案例分析：透明度框架的潜在影响

假设一家AI公司开发了一种用于诊断疾病的AI系统。如果该公司遵循透明度框架，它将需要公开其安全开发框架，详细说明如何确保AI系统的准确性和公正性。此外，该公司还需要发布系统卡，总结AI系统的测试结果和性能指标。通过这些透明度措施，医生和患者可以更好地了解AI系统的优缺点，并做出更明智的决策。

数据佐证：透明度的价值

研究表明，透明度可以提高公众对AI技术的信任度。一项针对美国消费者的调查发现，当AI系统的决策过程更加透明时，消费者更愿意信任和使用这些系统。此外，透明度还可以促进AI技术的创新。通过公开AI系统的设计和测试数据，研究人员可以更容易地发现潜在的问题并提出改进建议。

结论

在前沿AI发展的关键时刻，透明度不仅是伦理责任，更是确保技术进步与公共利益相协调的战略 nécessité. 通过采纳结构化的透明度框架，我们能够在激发创新的同时，有效管理潜在风险，确保AI技术为社会带来广泛而持久的益处。

随着AI技术的不断进步，我们需要不断审视和完善透明度框架，以适应新的挑战和机遇。只有这样，我们才能确保AI技术的发展符合人类的共同利益，并为构建一个更加安全、公正和繁荣的未来做出贡献。