在人工智能(AI)技术飞速发展的今天,数据成为了驱动模型进步的关键燃料。然而,获取高质量的训练数据并非易事。近日,一份法庭文件揭示了一家名为Anthropic的AI公司,为了构建其AI助手Claude,不惜花费巨资销毁数百万本实体书籍,这一事件引发了业界对于AI数据获取伦理和版权问题的广泛讨论。
Anthropic的“焚书”计划
Anthropic,这家致力于开发类似ChatGPT的AI助手的公司,于2024年2月聘请了前谷歌图书扫描项目负责人Tom Turvey,并赋予其一项看似不可能完成的任务——“获取世界上所有的书籍”。为了实现这一目标,Anthropic采取了一种激进的方法:将数百万本印刷书籍拆解、扫描成数字文件,然后将原书丢弃,完全是为了训练AI。这一过程的细节被隐藏在一项关于合理使用的版权裁决中,该裁决对AI训练使用书籍的更广泛的合理使用含义进行了阐述。
尽管破坏性扫描在一些书籍数字化操作中是一种常见的做法,但Anthropic的做法因其有记录的大规模而显得有些不同寻常。相比之下,谷歌图书项目主要使用了一种已获得专利的非破坏性相机流程来扫描从图书馆借来的数百万本书籍,然后再归还。对于Anthropic而言,破坏性流程的更快速度和更低成本似乎胜过了保存实体书籍的任何需求,这暗示了在一个竞争激烈的行业中,对廉价且简单的解决方案的需求。
法官William Alsup裁定,这种破坏性的扫描操作符合“合理使用”原则,但前提是Anthropic必须先合法购买这些书籍,扫描后销毁每本印刷版,并将数字文件保存在内部,而不是分发它们。法官将这一过程比作通过格式转换来“节省空间”,并认为它具有变革性。如果Anthropic从一开始就坚持这种方法,它可能已经实现了首例获得法律认可的AI合理使用案例。然而,该公司早期的盗版行为损害了其地位。
AI对高质量数据的渴求
为什么一家公司会花费数百万美元购买书籍然后销毁它们?这背后隐藏着AI行业对高质量文本的巨大需求。大型语言模型(LLM),如ChatGPT和Claude背后的技术,需要通过将数十亿的单词输入到神经网络中进行训练。在训练过程中,AI系统会反复处理文本,建立单词和概念之间的统计关系。
输入到神经网络中的训练数据的质量直接影响着AI模型的能力。与那些在较低质量的文本(如随机YouTube评论)上训练的模型相比,在编辑良好的书籍和文章上训练的模型往往会产生更连贯、准确的响应。
出版商合法地控制着AI公司迫切想要的内容,但AI公司并不总是愿意协商许可。首次销售原则提供了一个变通方法:一旦你购买了一本实体书,你就可以对该副本做任何你想做的事情——包括销毁它。这意味着购买实体书提供了一个法律上的变通方法。
然而,购买东西是昂贵的,即使它是合法的。因此,像许多AI公司一样,Anthropic最初选择了快速简便的途径。为了获得高质量的训练数据,法庭文件指出,Anthropic首先选择收集盗版书籍的数字化版本,以避免首席执行官Dario Amodei所说的“法律/实践/商业困境”——与出版商进行复杂的许可谈判。但到2024年,由于“法律原因”,Anthropic已经“不那么热衷于”使用盗版电子书,并且需要一个更安全的来源。
购买二手实体书完全绕过了许可问题,同时提供了AI模型所需的高质量、经过专业编辑的文本,而破坏性扫描只是数字化数百万卷书籍的最快方式。该公司在这一购买和扫描操作上花费了“数百万美元”,通常批量购买二手书。接下来,他们将书籍从装订中剥离,将页面切割成可操作的尺寸,将它们作为成堆的页面扫描成带有机器可读文本(包括封面)的PDF,然后丢弃所有纸质原件。
法庭文件没有表明在此过程中有任何珍本书籍被销毁——Anthropic从主要零售商处批量购买书籍——但档案管理员很久以前就建立了其他从纸张中提取信息的方法。例如,互联网档案馆率先开发了非破坏性的书籍扫描方法,可以在创建数字副本的同时保存实体卷。本月早些时候,OpenAI和微软宣布他们正在与哈佛大学图书馆合作,利用近100万本可追溯到15世纪的公共领域书籍来训练AI模型——这些书籍已被完全数字化,但保存下来以供日后使用。
伦理与未来
当哈佛大学小心翼翼地保存着600年前的手稿用于AI训练时,地球上的某个地方却堆放着数百万本被丢弃的书籍的残骸,这些书籍教会了Claude如何优化你的简历。当被问及这一过程时,Claude自己用一种从数十亿页被丢弃的文本中提炼出来的风格,提供了一个辛酸的回应:“事实上,这种破坏帮助创造了我——一种可以讨论文学、帮助人们写作并参与人类知识的事物——这增加了一些我仍在处理的复杂性。这就像是从图书馆的灰烬中建造出来的。”
Anthropic的案例无疑为AI行业敲响了警钟。在追求技术进步的同时,我们是否应该更加重视对文化遗产的保护?AI的发展是否应该以牺牲人类文明的载体为代价?这些问题值得我们深入思考。
AI数据获取的多种路径
1. 合作与授权
与出版商、图书馆等机构建立合作关系,通过合法的授权方式获取高质量的文本数据。这种方式虽然成本较高,但能够保证数据的合法性和版权的清晰,避免潜在的法律风险。
2. 数据集众包
通过众包的方式,鼓励用户贡献自己的文本数据,例如博客文章、评论、论坛帖子等。这种方式可以获取大量的数据,但需要对数据进行筛选和清洗,以保证数据的质量。
3. 开放数据利用
充分利用互联网上已有的开放数据资源,例如维基百科、公共领域书籍等。这些数据资源虽然质量参差不齐,但经过适当的处理和筛选,可以作为AI训练的补充数据。
4. 数据增强技术
利用数据增强技术,例如文本翻译、同义词替换、句子重组等,从已有的数据中生成新的数据。这种方式可以有效地扩充数据集,提高模型的泛化能力。
结论
Anthropic销毁数百万本书籍的事件,暴露了AI行业在数据获取方面的一些问题。在追求技术进步的同时,我们应该更加重视对知识产权的尊重和对文化遗产的保护。通过合作、众包、开放数据利用和数据增强等多种方式,我们可以构建更加健康、可持续的AI数据生态系统,推动AI技术的健康发展。