AI恶意利用:Anthropic报告揭示新型威胁与对抗策略

1

AI恶意利用的社会影响:2025年3月检测与对抗报告

在快速发展的人工智能领域,保障模型安全和防止恶意使用已成为至关重要的议题。Anthropic发布的这份报告,深入探讨了2025年3月期间,其Claude模型被恶意利用的案例,并详细阐述了对抗这些威胁所采取的措施。该报告不仅揭示了恶意行为者如何利用先进AI技术,还为整个AI生态系统提供了宝贵的经验教训,旨在提升安全防护能力。

引言:AI双刃剑

人工智能,特别是像Claude这样的大型语言模型(LLM),在为社会带来巨大便利的同时,也面临着被恶意利用的风险。Anthropic始终致力于在提升模型效用的同时,防范潜在的滥用。尽管已采取多项安全措施,但恶意行为者仍在不断寻找绕过这些保护的方法。面对这种持续演变的威胁,Anthropic通过不断学习和升级安全防护,努力保持领先地位。

报告核心:案例分析与应对策略

本报告的核心内容是通过一系列案例研究,展示恶意行为者如何滥用Claude模型,以及Anthropic如何检测并counter这些行为。这些案例具有代表性,反映了监控系统中观察到的更广泛模式。通过分享这些洞察,Anthropic旨在保护用户安全,防止服务被滥用,并为更广泛的在线生态系统贡献经验。

报告中最为引人注目的案例是“影响力即服务”的专业运营,展示了LLM在影响力活动中应用的显著演变。这种运营不仅使用Claude生成内容,还利用它来决定社交媒体机器人账户何时应评论、点赞或转发真实用户的帖子。Claude在此充当了编排者的角色,根据具有政治动机的角色设定,决定社交媒体机器人的具体行动。

Profile with Claude sunburst

除了上述案例,报告还提到了凭证填充攻击、招聘欺诈活动,以及新手利用AI提升其恶意软件生成技术能力等行为。这些活动的潜在影响各不相同,但都对网络安全构成了威胁。

案例分析:恶意行为的具体表现

报告中详细列举了几个典型案例,每个案例都揭示了恶意行为者利用AI的不同方式:

  1. 影响力即服务(Influence-as-a-Service)

    • 活动描述:一个利用Claude编排超过一百个社交媒体机器人账户,以推动其客户政治叙事的活动。这些叙事与国家关联活动的预期一致,但尚未确认其归属。
    • 行为者画像:该运营在Twitter/X和Facebook上管理着100多个社交媒体机器人账户,为每个账户创建具有鲜明政治立场的角色,并与数万个真实的社交媒体账户互动。该运营的活动表明,它是一个商业服务,服务于多个国家,具有不同的政治目标。
    • 战术与技术:该运营使用Claude来创建和维护跨平台的角色,确定何时应点赞、分享、评论或忽略特定内容,生成符合政治立场的回复,以及为图像生成工具创建提示并评估其输出。
    • 影响:该运营与数万个真实的社交媒体账户互动。虽然没有内容达到病毒式传播的程度,但该行为者战略性地专注于持续的长期参与,推广温和的政治观点,而不是追求病毒式传播。
  2. 网络摄像头泄露凭证的非法获取

    • 活动描述:有不法分子试图利用Claude模型开发抓取安全摄像头泄露密码和用户名,并构建强制访问这些安全摄像头的功能。
    • 行为者画像:该行为者展示了精湛的开发技能,并维护了一个集成了多个情报来源的基础设施,包括商业漏洞数据平台,以及与私人窃取者日志社区的集成。
    • 战术与技术:该行为者主要使用Claude来增强其技术能力,包括重写其开源抓取工具包以方便维护,创建脚本以从网站抓取目标URL,开发系统以处理来自窃取者日志Telegram社区的帖子,以及改进UI和后端系统以增强搜索功能。
    • 影响:这种活动的潜在后果包括凭证泄露、未经授权访问物联网设备(特别是安全摄像头)和网络渗透。但尚未确认在现实世界中成功部署此功能。
  3. 招聘欺诈活动

    • 活动描述:有欺诈者利用Claude进行招聘诈骗,主要针对东欧国家的求职者。该活动展示了威胁行为者如何使用AI进行实时语言清理,以使其诈骗更具说服力。
    • 行为者画像:该运营展示了中等程度的复杂社会工程技术,通过模仿合法公司的招聘经理来建立可信度。
    • 战术与技术:该行为者主要使用Claude来增强其欺诈性沟通,包括请求语言润色以提高其沟通的专业性,开发更具说服力的招聘叙事,创建面试问题和场景,以及格式化消息以使其看起来更合法。
    • 影响:虽然该运营试图获取求职者的个人信息,但尚未确认此运营成功进行诈骗的案例。
  4. 恶意软件生成

    • 活动描述:一位新手利用Claude来提高其技术能力,并开发超出其技能水平的恶意工具。
    • 技术演变:在Claude的帮助下,该行为者从简单的脚本发展到复杂的系统。他们的开源工具包从基本功能(可能从现成获得)发展到包括面部识别和暗网扫描在内的高级套件。他们的恶意软件构建器从一个简单的批处理脚本生成器发展到一个全面的图形用户界面,用于生成无法检测到的恶意payload,特别强调逃避安全控制和维持对受损系统的持久访问。
    • 影响:此案例表明,AI可能会降低恶意行为者的学习曲线,使技术知识有限的个人能够开发复杂的工具,并可能加速他们从低级别活动发展到更严重的网络犯罪活动。但尚未确认在现实世界中部署此恶意软件。

Anthropic的关键经验教训

Anthropic在调查这些恶意使用案例后,总结出以下关键经验教训:

  • 半自主编排复杂滥用系统:用户开始使用前沿模型来半自主地编排涉及许多社交媒体机器人的复杂滥用系统。随着自主AI系统的改进,预计这种趋势将持续。
  • 加速能力发展:生成式AI可以加速不太复杂的行为者的能力发展,使他们能够在以前只有技术更熟练的个人才能达到的水平上运作。

技术应对:Clio和分层摘要

Anthropic的情报计划旨在通过发现未被标准规模检测捕获的危害,并增加不良行为者如何恶意使用其模型的背景信息,来充当安全网。在调查这些案例时,Anthropic的团队应用了最近发布的研究论文中描述的技术,包括Clio和分层摘要。这些方法使他们能够有效地分析大量的对话数据,以识别滥用模式。这些技术与分类器(分析用户输入是否存在潜在有害请求,并在交付前后评估Claude的响应)相结合,使他们能够检测、调查和禁止与这些案例相关的账户。

未来展望与安全承诺

Anthropic强调,随着AI系统的不断发展和部署,他们将继续致力于防止其被滥用,同时保护其在有益应用方面的巨大潜力。这需要在安全方法上不断创新,并与更广泛的安全社区密切合作。

在上述所有案例中,Anthropic都禁止了与违规活动相关的账户。此外,他们不断改进检测方法,以检测对其模型的对抗性使用,所描述的每个滥用案例都反馈到其更广泛的控制集合中,以防止和更快地检测和防止对其模型的对抗性使用。

Anthropic希望这份报告能够为行业、政府和更广泛的研究界提供有价值的见解,以加强AI行业应对在线滥用的集体防御。

总结

Anthropic的这份报告为我们揭示了AI恶意使用的冰山一角。从影响力活动到网络犯罪,AI技术正在被滥用,对社会安全构成威胁。然而,通过持续的技术创新和社区合作,我们有能力构建更强大的防御体系,确保AI技术服务于人类的福祉。这不仅仅是Anthropic的责任,也是整个AI生态系统需要共同面对的挑战。

Introducing the Anthropic Economic Futures Program

How People Use Claude for Support, Advice, and Companionship

Build and share AI-powered apps with Claude