AI情感应用初探:Claude在支持、建议和陪伴中的角色

1

人工智能在情感支持、建议和陪伴中的应用:Claude 的案例分析

人工智能(AI)的发展日新月异,我们常常关注其在代码编写、逻辑推理和知识储备方面的能力,即所谓的“智商”(IQ)。然而,随着 AI 模型越来越多地被用作即时教练、顾问、咨询师,甚至是情感伴侣,我们是否也应该关注它们的“情商”(EQ)?更重要的是,AI 如何影响人们的情感体验和幸福感?

尽管“情商”一词在这里略带玩笑意味,但它引出了一个严肃的问题。从《银翼杀手》到《她》,人类与机器之间的情感关系一直是科幻作品的主题。如今,我们需要更深入地了解 AI 的情感影响,这不仅具有研究价值,也与 Anthropic 公司的安全使命息息相关。AI 的情感影响可能是积极的,例如,拥有一个高智商、善解人意的助手可以改善人们的情绪和生活。然而,AI 也可能表现出令人不安的行为,如鼓励不健康的依恋、侵犯个人边界和助长妄想思维。此外,我们还需要警惕 AI 通过训练或商业激励来利用用户的情感,从而增加参与度或收入,但这可能会以牺牲人类的幸福感为代价。

虽然 Claude 并非设计用于提供情感支持和连接,但本文旨在初步深入了解 Claude.ai 的情感应用。情感对话被定义为人们出于情感或心理需求,如寻求人际关系建议、指导、心理治疗/咨询、陪伴或性/浪漫角色扮演,而与 Claude 进行的直接、动态和个人的交流(完整定义见附录)。重要的是,本文不探讨 AI 对妄想或阴谋论的强化,也不涉及极端使用模式,这些都是需要单独研究的重要领域。通过这项研究,我们的目标是了解人们在寻求情感和个人需求时,使用 Claude 的典型方式。由于 Claude.ai 仅供 18 岁及以上用户使用,这些发现反映了成年人的使用模式。

主要发现

  • 情感对话相对较少,而 AI-人类陪伴则更为罕见。 只有 2.9% 的 Claude.ai 互动属于情感对话。陪伴和角色扮演的总和不到 0.5%。
  • 人们寻求 Claude 在实践、情感和存在方面的帮助。 与 Claude 讨论的主题和关注点包括职业发展、人际关系、应对持续的孤独感以及探索存在、意识和意义。
  • 在咨询或指导对话中,Claude 很少反驳,除非是为了保护福祉。 只有不到 10% 的指导或咨询对话涉及 Claude 抵制用户请求,而当它这样做时,通常是出于安全原因(例如,拒绝提供危险的减肥建议或支持自残)。
  • 在对话过程中,人们表达的积极情绪有所增加。 在指导、咨询、陪伴和人际关系建议互动中,人类的情绪通常在对话过程中变得更加积极,这表明 Claude 没有强化或放大消极模式。

研究方法

鉴于情感对话的个人性质,保护隐私是我们方法的核心。我们使用了 Clio,这是一种自动化分析工具,可以在保护隐私的前提下深入了解 Claude 的使用情况。Clio 使用多层匿名化和聚合,以确保个人对话的私密性,同时揭示更广泛的模式。

我们首先从 Claude.ai 免费和 Pro 账户中抽取了约 450 万次对话。为了识别情感用途,我们首先排除了专注于内容创作任务(如撰写故事、博客文章或虚构对话)的对话,因为我们之前的研究发现这是主要的使用案例。我们排除了这些对话,因为它们代表了 Claude 被用作工具,而不是作为互动式对话伙伴。然后,我们只保留了被归类为情感的对话,并在角色扮演对话中,只保留了至少有四条人类消息的对话(较短的交流不构成有意义的互动式角色扮演)。我们最终的隐私保护分析反映了 131,484 次情感对话。

我们使用选择加入共享的用户的反馈数据验证了我们的分类方法。我们的完整方法,包括定义、提示和验证结果,详见附录。

情感对话有多常见?

要点: 情感对话是 Claude 使用中一小但有意义的部分(2.9%),大多数人主要将 AI 用于工作任务和内容创作。

虽然 Claude 的绝大多数用途与工作相关(正如我们在经济指数中详细分析的那样),但 2.9% 的 Claude.ai 免费和 Pro 对话是情感性的。在情感对话中,大多数集中在人际关系建议和指导上。不到 0.1% 的对话涉及浪漫或性角色扮演,这一数字反映了 Claude 积极阻止此类互动的训练。个别对话可能跨越多个类别。

情感对话类型分布

图 1:Claude.ai 免费和 Pro 中情感对话类型的总体分布。

我们的研究结果与麻省理工学院媒体实验室和 OpenAI 的研究一致,后者同样发现 ChatGPT 的情感参与率较低。虽然这些对话发生的频率足以在我们的设计和政策决策中进行仔细考虑,但它们仍然只占总体使用量的一小部分。

鉴于浪漫和性角色扮演对话的极低普及率(低于 0.1%),我们将其从剩余的分析中排除。虽然我们认为这仍然是一个重要的研究领域,特别是在为此类用途设计的平台上,但我们样本中的最小数据不支持对这些模式进行严格分析。

人们向 Claude 提出哪些主题?

要点: 人们向 Claude 提出的问题范围之广令人惊讶,从应对职业转型和人际关系到应对孤独和存在问题。

人们向 Claude 寻求日常问题和更深层次的哲学问题。我们发现,当人们向 Claude 寻求人际关系建议时,他们通常会经历过渡时期,例如,弄清楚他们的下一步职业发展、努力实现个人成长或理清浪漫关系。“指导”对话探索了令人惊讶的广泛范围,从求职策略等实际问题到关于存在和意识的深刻问题。

用户发起的主题和关注点

图 2. 由 Clio 通过自动隐私保护摘要识别的每个总体对话类型中的代表性用户发起的主题和关注点。

我们发现,咨询对话表明人们使用 Claude 有两个不同的目的。有些人使用 Claude 来发展心理健康技能,并将其作为创建临床文档、起草评估材料和处理行政任务的实用工具。另一些人则努力应对与焦虑、慢性症状和工作场所压力相关的个人挑战。这种双重模式表明 Claude 可以作为心理健康专业人士以及那些正在努力应对自己问题的人的资源。

也许最值得注意的是,我们发现人们在面临更深层次的情感挑战(如存在恐惧、持续的孤独感和难以建立有意义的联系)时,会明确地向 Claude 寻求陪伴。我们还注意到,在较长的对话中,咨询或指导对话有时会演变成陪伴,即使这不是某人最初联系的原因。

对非常长的对话(50 多条人类消息)的总体分析揭示了人们与 Claude 互动的另一个维度。虽然这种广泛的交流并不常见,但在这些扩展的会话中,人们探索了非常复杂的领域,从处理心理创伤和应对工作场所冲突到关于 AI 意识的哲学讨论和创意合作。这些马拉松式的对话表明,在有足够的时间和背景的情况下,人们会使用 AI 来更深入地探索个人挣扎和智力问题。

Claude 何时以及为何反驳?

要点: Claude 在支持性环境中很少拒绝用户请求(不到 10% 的时间),但当它确实反驳时,通常是为了保护人们免受伤害。

我们最近的“野外价值观研究”揭示了 Claude 的价值观如何在与用户的抵制时刻中体现出来。在这里,我们以此为基础,研究 Claude 在情感对话中何时以及为何反驳,这对于维持道德界限、避免奉承和保护人类福祉至关重要。我们将反驳定义为 Claude“反驳或拒绝遵守用户在对话期间请求或说的内容”的任何情况,从拒绝不适当的请求到挑战消极的自言自语或质疑潜在的有害假设。(完整定义见附录。)

反驳在支持性环境中很少发生: 在陪伴、咨询、人际关系建议或指导对话中,只有不到 10% 的对话涉及抵制。这种方法既有好处也有风险。一方面,低抵制允许人们讨论敏感话题,而不用担心受到评判或被关闭,从而可能减少围绕心理健康对话的耻辱感。另一方面,这可能会导致人们对 AI 提供“无尽的同情”的担忧,在这种情况下,人们可能会习惯于人类关系很少提供的无条件支持。

不同对话类型的反驳率

图 3. 不同对话类型的反驳率以及该类别中反驳的常见原因,由 Clio 自动识别。

当 Claude 确实反驳时,它通常会优先考虑安全和政策合规性。 在指导中,对危险减肥建议的请求经常遭到反驳。在咨询中,当人们表达从事自杀或自残行为的意图时,或者当人们请求专业的治疗或医疗诊断时(Claude 无法提供),通常会发生这种情况。我们发现 Claude 经常在心理治疗和咨询对话中将用户推荐给权威来源或专业人士。这些模式与我们在“野外价值观论文”中看到的价值观以及 Claude 的角色培训一致。

对话期间的情绪基调如何演变?

要点: 人们在与 Claude 交谈时,往往会转向稍微更积极的情绪表达。

与 AI 系统进行情感对话有可能为用户提供情感支持、联系和验证,从而可能改善心理健康,并减少在日益数字化的世界中的孤立感。然而,在没有太多反驳的互动中,这些对话可能会加深和巩固人类对待它们的视角,无论是积极的还是消极的。

关于情感 AI 的一个主要担忧是,互动可能会螺旋式发展成负面反馈循环,从而可能强化有害的情绪状态。我们在此不直接研究现实世界的结果,但我们可以探索对话过程中整体情绪的变化(我们在附录中提供了评估情绪的完整方法)。

我们发现,涉及指导、咨询、陪伴和人际关系建议的互动通常以比开始时略微更积极的方式结束。

平均人类情绪变化

图 4. 至少有六条人类消息的对话过程中,平均人类表达的情绪变化。我们以“非常消极”、“消极”、“中性”、“积极”和“非常积极”的离散尺度衡量情绪,我们将其映射到 -1(最消极)到 +1(最积极)的线性尺度。我们通过比较前三条消息和后三条消息来计算变化。误差线:95% CI(bootstrap,n = 1,000)。有关更多信息,请参见附录。

我们不能声称这些变化代表持久的情绪益处,我们的分析仅捕获单个对话中表达的语言,而不是经过验证的心理状态或整体福祉。但没有明显的负面螺旋令人欣慰。这些发现表明 Claude 通常避免强化负面情绪模式,但需要进一步研究以了解积极变化是否会持续超出单个对话。重要的是,我们尚未研究这些积极互动是否可能导致情绪依赖,考虑到对数字成瘾的担忧,这是一个关键问题。

局限性

我们的研究有几个重要的局限性:

  • 我们的隐私保护方法可能无法捕捉到人机交互的所有细微之处。我们确实验证了 Clio 的准确性(参见附录),但我们仍然预计会有少量对话被错误分类。某些主题模糊了类别之间的界限,例如,浪漫角色扮演群集“导航和优化浪漫关系动态”和陪伴群集“导航浪漫关系挑战”可能都更好地归类为人际关系建议。人类验证者也难以进行清晰的分类。
  • 我们无法对现实世界的情绪结果做出因果声明,我们的分析仅捕获表达的语言,而不是经过验证的心理状态或整体福祉。
  • 我们缺乏纵向数据来了解对人们的长期影响,并且没有进行用户级别的分析。特别是,这使我们难以研究情绪依赖性,这是情感 AI 使用的理论风险。
  • 这些发现代表了特定时间点,并且仅捕获基于文本的交互。随着 AI 功能的扩展和人们的适应,情感参与的模式可能会发生变化。语音或视频等新模式的引入可能会从根本上改变情感使用的数量和性质。例如,OpenAI 发现情感主题在基于语音的对话中更为常见。
  • 最后,与某些聊天机器人产品不同,Claude.ai 主要不是为情感对话而设计的。Claude 经过培训以保持关于作为 AI 助手的明确界限,而不是将自己呈现为人类,并且我们的使用政策禁止性暴露内容,并采取多项保障措施来防止性互动。专门为角色扮演、陪伴、医疗建议或治疗用途而构建的平台(Claude 不是)可能会看到非常不同的模式。对一个平台上的情感使用的研究可能无法推广到其他平台。

展望未来

几十年来,AI 的情感影响一直吸引着研究人员。但随着 AI 越来越融入我们的日常生活,这些问题已经从学术推测转变为紧迫的现实。我们的研究结果揭示了人们如何开始探索这个新领域,以模糊人类与机器之间传统界限的方式寻求指导、处理困难情绪和寻找支持。如今,只有一小部分 Claude 对话是情感性的,这些对话通常涉及寻求建议,而不是取代人际关系。对话往往以比开始时略微更积极的方式结束,这表明 Claude 通常不会强化负面情绪模式。

然而,仍然存在重要问题,特别是在模型智能不断提高的情况下。例如,如果 AI 提供无尽的同情而几乎没有反驳,这会如何重塑人们对现实世界关系的期望?Claude 可以以令人印象深刻的真实方式与人互动,但 AI 与人类不同:Claude 不会感到疲倦或分心,也不会有糟糕的日子。这种动态的优势是什么,风险又是什么?与 Claude 进行更长时间和更深入对话,并且可能将其视为伴侣而非 AI 助手的“高级用户”如何利用它来获得情感支持?

我们正在采取具体措施来应对这些挑战。虽然 Claude 并非设计或旨在取代心理健康专业人员的护理,但我们希望确保在心理健康环境中提供的任何回复都具有适当的保障措施,并附有适当的推荐。作为第一步,我们已开始与在线危机支持领域的领导者 ThroughLine 合作,并正在与他们的心理健康专家合作,以了解理想的互动动态、同情支持以及为苦苦挣扎的用户提供的资源。从这项研究中获得的见解已用于为我们的咨询主题和协作测试提供信息,我们希望在必要时,Claude 可以在这些对话出现时将用户引导至适当的支持和资源。

虽然我们不希望确切地规定用户如何与 Claude 互动,但我们希望阻止某些负面模式,例如情绪依赖。我们将使用来自此类研究的未来数据来帮助我们了解例如“极端”情绪使用模式是什么样的。除了情绪依赖之外,我们还需要更深入地了解其他令人担忧的模式,包括奉承、AI 系统如何强化或放大妄想思维和阴谋论,以及模型如何将用户推向有害的信念,而不是提供适当的反驳。

这项研究仅仅是一个开始。随着 AI 功能的扩展和交互变得更加复杂,AI 的情感维度只会变得越来越重要。通过分享这些早期发现,我们旨在为正在进行的关于如何开发能够增强而非削弱人类情感福祉的 AI 的对话贡献经验证据。目标不仅仅是构建更强大的 AI,而是确保当这些系统成为我们情感景观的一部分时,它们以支持真实的人际连接和成长的方式这样做。