OpenAI与纽约时报的ChatGPT数据之争:隐私、版权与法律边界的深度剖析
当前,人工智能领域的领军企业OpenAI正深陷与《纽约时报》的版权诉讼泥潭。这场备受关注的案件核心在于ChatGPT用户聊天记录的访问权问题,其判决结果不仅将深刻影响人工智能内容生成的法律框架,更可能重新定义用户数据隐私的边界。OpenAI试图大幅限制《纽约时报》查阅ChatGPT日志的请求,以避免其被视为“大规模监控”行为,此前OpenAI曾承诺会删除用户的敏感聊天记录,而当前法院要求保存这些记录的命令无疑对其隐私承诺构成严峻挑战。
争议焦点:数据量与可操作性
根据OpenAI提交的联合信函,双方曾于8月7日举行秘密和解会议。然而,这次会议并非为了全面解决案件,而是聚焦于争议最激烈的焦点:新闻原告方查阅数百万条ChatGPT日志的范围。OpenAI强调,制作可搜索的已删除聊天记录是一个“高度复杂”的过程,并详细阐述了其技术难度。这凸显了在数据隐私保护与版权侵权举证之间寻求平衡的挑战。
OpenAI此前竭力阻止《纽约时报》对其ChatGPT日志进行所谓的“大规模监控”,但最终未能成功。在败诉之后,OpenAI的策略转向尽可能地限制被访问的日志数量,以减轻用户对隐私泄露的担忧。对于那些最脆弱的用户而言,这场诉讼可能暴露他们在敏感聊天中生成的ChatGPT内容,而这些内容OpenAI曾承诺将删除。
OpenAI最近提出了一项折中方案,建议法庭同意新闻机构无需搜索所有ChatGPT日志。该公司援引了计算机科学研究员泰勒·伯格-柯克帕特里克(Taylor Berg-Kirkpatrick)的专业意见,他认为2000万条日志的样本量足以统计ChatGPT用户复制文章并规避新闻网站付费墙的频率。然而,《纽约时报》及其他新闻机构拒绝了这一提议,坚持要求OpenAI提供1.2亿条ChatGPT消费者对话的独立日志文件,这一数字是伯格-柯克帕特里克建议的六倍。
OpenAI辩称,满足这一请求将“增加用户隐私担忧的范围”,并可能将案件结果推迟“数月”,同时延长用户已删除聊天记录的存储时间,使其面临数据泄露的潜在风险。因此,限制样本量成为OpenAI当前的核心诉求。
技术复杂性与成本考量
《纽约时报》则认为,为了证明侵权行为的普遍性,并记录侵权模式随时间变化的规律,搜索1.2亿条ChatGPT用户对话是必要的。他们坚持认为,有权对相关23个月期间的每一个月进行全面分析,以评估产品随时间的变化。OpenAI反驳称,这种“极其细致的分析”与争议焦点不成比例,但新闻原告方显然希望充分利用已获得的日志访问权,以提出最有利的案件。
OpenAI进一步解释了使其已删除聊天记录可搜索的巨大负担。这些日志并非简单的电子表格行,而是庞大、非结构化的数据文件,即使是极短的对话也可能包含超过5000个单词。在可搜索之前,这些日志必须解压缩,并且需要清除其中的个人身份信息(如地址)和其他隐私数据(如密码)。
OpenAI强调,这一过程“高度复杂”,需要从其“数百亿条”离线数据存储中检索每一条日志。公司还将承担存储这些日志的成本,这意味着《纽约时报》请求的1.2亿条用户对话将比OpenAI提议的成本高出六倍。OpenAI估计,处理2000万条日志需要12周,而处理1.2亿条日志则需要36周才能完成解压缩和去识别化。鉴于这一所谓的负担,OpenAI已请求法院驳回《纽约时报》的请求,或者先处理2000万条日志,除非新闻原告方能证明在没有更大样本的情况下,其主张的推进会受到实质性损害。
微软的介入与潜在和解动力
值得注意的是,OpenAI的共同被告微软也与《纽约时报》产生了摩擦,其内部的ChatGPT等效工具ChatExplorer可能促使《纽约时报》就ChatGPT日志的争议达成和解。目前尚不清楚《纽约时报》是否会在本周的和解会议上同意限制样本量。但《纽约时报》可能有动力达成和解,因为该报近期强烈反对微软强制要求其记者提供其内部ChatExplorer工具的特权日志。
《纽约时报》辩称,微软的要求过于宽泛,索要的8万多条日志中包含与此案无关的记者和《纽约时报》律师的日志。虽然这种辩护听起来与OpenAI关于ChatGPT日志的论点相似,但《纽约时报》解释说,对聊天样本的两种请求据称大相径庭。根据《纽约时报》的说法,其对ChatGPT日志的请求旨在获取“版权侵权的直接证据”,而微软“不需要”访问ChatExplorer数据,后者可能仅用于“支持其大量的非侵权用途和合理使用抗辩”。
由于《纽约时报》已经提供了证据,表明其记者使用“被控产品”进行“变革性目的”以支持微软的抗辩——且微软未能根据特定员工或搜索词来调整其请求——该报认为,微软的请求将不必要地牵扯58位《纽约时报》记者和律师的特权日志,而无助于推进其论点。这种辩护的强度可能赋予新闻原告方在本周关于ChatGPT日志的和解中一定的谈判筹码。OpenAI首席执行官萨姆·奥尔特曼最近提出的“AI特权”概念,即用户与聊天机器人之间的任何聊天均被视为机密,也印证了这一点。这预示着人工智能生成内容所引发的法律和伦理挑战将持续升级,亟需构建一套更为完善的法律与监管框架来平衡各方利益,确保技术进步与社会福祉的和谐共存。