Anthropic启动AI安全漏洞赏金计划:社区共筑AI安全防线

1

在人工智能(AI)领域,模型安全问题日益凸显,各大AI公司都在积极探索和实践各种安全防护措施。Anthropic公司于2025年5月14日宣布启动一项新的漏洞赏金计划,旨在通过社区的力量,进一步加强其AI模型的安全防御能力。这项计划不仅是对Anthropic自身技术的一次全面检验,也为整个AI安全领域注入了新的活力。

A magnifying glass reviewing code

Anthropic的这项漏洞赏金计划并非首次。早在去年夏天,该公司就曾推出过类似的项目,旨在寻找尚未公开部署的安全分类器中的通用越狱漏洞。而此次的计划,则更进一步,目标是测试更为先进的安全措施,以满足AI安全Level-3(ASL-3)部署标准。这一标准是Anthropic《负责任的扩展策略》的核心组成部分,该策略旨在指导公司如何安全地开发和部署日益强大的AI模型。

本次漏洞赏金计划与HackerOne合作,将重点测试Anthropic的Constitutional Classifiers系统的更新版本。Constitutional Classifiers是一种用于防范越狱的技术,特别关注与CBRN(化学、生物、放射性和核武器)相关的信息泄露。该系统基于一系列原则,旨在明确Claude在互动中应允许和禁止的内容类型,从而将重点放在特定危害上。

参与者将有机会提前访问Claude 3.7 Sonnet,并测试其安全分类器。对于在该未发布系统上发现的已验证通用越狱漏洞,Anthropic将提供高达25,000美元的赏金。通用越狱漏洞指的是一种能够持续绕过Claude安全措施的漏洞,尤其是在CBRN相关主题上可能被滥用的漏洞。

随着AI模型的日益强大,Anthropic认为,未来的模型可能需要ASL-3安全和安全保护。此次漏洞赏金计划将有助于公司在过去几个月中迭代和压力测试ASL-3安全措施。该计划首先邀请了去年参与早期项目的研究人员,同时也欢迎新的研究人员加入。Anthropic鼓励具有丰富红队经验或在识别语言模型越狱方面有专长的研究人员通过申请表申请参与。申请时间从今天开始,到5月18日星期日结束。由于该计划仅限受邀者参与,Anthropic能够及时响应提交的反馈。

Anthropic公司对安全社区在帮助其构建更安全的AI系统方面的合作表示感谢。

Constitutional Classifiers系统的技术原理

Constitutional Classifiers系统是Anthropic公司在AI安全领域的一项重要创新。其核心思想是,通过构建一个基于明确宪法原则的分类器,来指导AI模型的行为,从而防止模型产生有害或不当的输出。这个系统的工作原理可以概括为以下几个步骤:

  1. 定义宪法原则:首先,需要定义一套明确的宪法原则,这些原则应该涵盖AI模型在互动中应遵循的道德、法律和社会规范。例如,可以包括“不得生成歧视性内容”、“不得泄露个人隐私”、“不得提供非法活动的指导”等原则。
  2. 构建分类器:基于这些宪法原则,构建一个分类器,用于判断AI模型的输出是否符合这些原则。这个分类器可以采用各种机器学习技术,例如自然语言处理、文本分类等。
  3. 指导模型行为:在AI模型生成输出之前,先使用分类器对可能的输出进行评估。如果分类器判断输出违反了宪法原则,则对模型进行干预,例如修改模型的输出,或者阻止模型生成该输出。
  4. 持续优化:随着AI技术的不断发展,以及社会规范的变化,需要不断优化宪法原则和分类器,以确保Constitutional Classifiers系统始终能够有效地指导AI模型的行为。

Constitutional Classifiers系统的优势在于,它提供了一种结构化的、可解释的方法来控制AI模型的行为。通过明确的宪法原则,可以确保AI模型的行为符合伦理和法律的要求。此外,由于分类器是基于机器学习技术构建的,因此可以自动地适应新的情况和挑战。

通用越狱漏洞的挑战与应对

通用越狱漏洞是指一种能够绕过AI模型安全措施的漏洞,使得攻击者可以利用这些漏洞来诱导AI模型生成有害或不当的输出。通用越狱漏洞的发现和利用,对AI安全构成了严重的威胁。

应对通用越狱漏洞,需要采取多种措施:

  1. 漏洞赏金计划:通过漏洞赏金计划,鼓励安全研究人员和社区成员积极寻找和报告漏洞。这可以帮助AI公司及时发现和修复漏洞,从而减少潜在的风险。
  2. 安全审计:定期对AI模型进行安全审计,以发现潜在的漏洞和安全隐患。安全审计可以采用各种技术,例如模糊测试、代码审查等。
  3. 安全更新:及时发布安全更新,修复已知的漏洞。这可以防止攻击者利用这些漏洞来攻击AI模型。
  4. 安全监控:对AI模型的行为进行实时监控,以发现异常行为。如果发现异常行为,及时采取措施进行干预。
  5. 安全培训:加强对AI开发人员的安全培训,提高其安全意识和技能。这可以帮助开发人员在开发AI模型时,更加注重安全性。

ASL-3安全标准的意义与实践

ASL-3(AI Safety Level 3)是Anthropic公司《负责任的扩展策略》中定义的一个安全标准,旨在确保AI模型在部署时,能够满足一定的安全要求。ASL-3标准主要关注以下几个方面:

  1. 危害识别:识别AI模型可能造成的危害,例如信息泄露、歧视、操纵等。
  2. 风险评估:评估这些危害发生的可能性和影响。
  3. 安全措施:采取必要的安全措施,以降低这些危害发生的可能性和影响。
  4. 监控与响应:对AI模型的行为进行实时监控,及时响应安全事件。

为了满足ASL-3标准,Anthropic公司采取了多种安全措施,包括Constitutional Classifiers系统、漏洞赏金计划、安全审计等。这些措施旨在确保AI模型在部署时,能够满足一定的安全要求,从而降低潜在的风险。

Anthropic公司在AI安全领域的持续努力

Anthropic公司一直致力于构建更安全的AI系统。除了上述的漏洞赏金计划和Constitutional Classifiers系统外,该公司还在其他方面进行了大量的投入,包括:

  1. 安全研究:Anthropic公司拥有一支专业的安全研究团队,致力于研究AI安全领域的最新技术和挑战。
  2. 安全合作:Anthropic公司与安全社区保持着密切的合作,共同应对AI安全挑战。
  3. 安全教育:Anthropic公司积极参与AI安全教育,提高公众对AI安全问题的认识。

通过这些努力,Anthropic公司希望能够构建更安全的AI系统,为社会带来更大的福祉。

AI安全领域的未来展望

随着AI技术的不断发展,AI安全问题将变得越来越重要。未来,AI安全领域将面临以下几个挑战:

  1. 复杂性:AI模型变得越来越复杂,这使得安全审计和漏洞发现变得更加困难。
  2. 对抗性:攻击者不断寻找新的方法来绕过AI模型的安全措施。
  3. 规模:AI模型的部署规模越来越大,这使得安全监控和响应变得更加具有挑战性。

为了应对这些挑战,AI安全领域需要不断创新,探索新的技术和方法。同时,也需要加强合作,共同应对AI安全挑战。

2025年5月22日更新

该帖子中的漏洞赏金计划已经结束。参与者将过渡到一个新的漏洞赏金计划,该计划的重点是在新的Claude Opus 4模型上压力测试我们的Constitutional Classifiers系统,并测试我们可能开发的其他安全系统。我们仍然接受参与这项新的仅限邀请计划的申请。您可以通过我们的申请表申请邀请。

为了进一步推进AI安全,我们还接受在公共平台或论坛(如社交媒体)上发现的ASL-3关注用途(意味着那些引出与生物威胁相关的信息)的通用越狱报告。有关更多信息,请参见此处

[

News

Introducing the Anthropic Economic Futures Program

Jun 27, 2025

](/news/introducing-the-anthropic-economic-futures-program)[

News

How People Use Claude for Support, Advice, and Companionship

Jun 27, 2025

](/news/how-people-use-claude-for-support-advice-and-companionship)[

News

Build and share AI-powered apps with Claude

Jun 25, 2025

](/news/claude-powered-artifacts)