AI“焚书”:Anthropic销毁数百万书籍背后的伦理与创新之辩

1

在人工智能(AI)领域,数据是驱动模型发展的核心燃料。Anthropic公司,作为一家致力于AI技术前沿探索的企业,近期因其在构建AI模型过程中的一项举措而备受关注。该公司为了训练其AI助手Claude,采取了一种颇为激进的方法:大规模销毁实体书籍,将之转化为数字形式以供AI学习。这一行为不仅引发了关于知识获取方式的讨论,也触及了版权、伦理以及文化保护等深层议题。

Anthropic的“焚书”行动

据公开的法庭文件披露,Anthropic在构建Claude的过程中,不惜花费巨资购入数百万册印刷书籍。这些书籍并非被用于传统的阅读和研究,而是被直接拆解、扫描,最终以数字化的形式输入到AI模型中。完成数字化后,实体书籍便被丢弃,这一过程被一些人戏称为现代版的“焚书坑儒”。

这一行动的背后,是AI行业对于高质量训练数据的巨大需求。大型语言模型(LLM)的训练依赖于海量的数据,数据的质量直接影响着AI模型的性能。相较于网络上随处可见的低质量文本,经过编辑和校对的出版书籍无疑是更优质的训练材料。Anthropic的负责人曾表示,他们最初曾尝试使用盗版的电子书,但出于法律风险的考虑,最终选择了购买实体书进行扫描的方式。

Anthropic于2024年聘请了曾负责谷歌图书扫描项目的Tom Turvey,旨在获取“世界上所有的书籍”。此举意在复制谷歌在图书数字化方面的成功经验。尽管图书扫描是常见的数字化手段,但Anthropic此举因其规模而显得不同寻常。谷歌图书项目主要采用非破坏性的扫描方式,从图书馆借阅书籍并在扫描后归还。相比之下,Anthropic似乎更看重扫描的速度和成本,而忽略了对书籍本身的保护。

法律的边缘:合理使用原则

美国法官William Alsup认为Anthropic的破坏性扫描行为属于合理使用,因为Anthropic合法购买了书籍,扫描后销毁了纸质副本,并且只在内部保留数字文件。法官将此过程比作通过格式转换来“节省空间”,并认为它具有变革性。然而,Anthropic最初使用盗版电子书的行为有损其立场。

高质量数据之争

为了理解Anthropic为何要扫描数百万本书,需要了解AI研究人员是如何构建大型语言模型的。他们将数十亿的文字输入到神经网络中。在训练过程中,AI系统会重复处理文本,从而建立单词和概念之间的统计关系。

输入到神经网络中的训练数据的质量直接影响着生成的AI模型的能力。用编辑良好的书籍和文章训练的模型,比用YouTube评论等低质量文本训练的模型,往往能产生更连贯、更准确的反应。

出版商合法地控制着AI公司迫切想要的内容,但AI公司并不总是愿意谈判许可。首次销售原则提供了一种变通方法:一旦你购买了一本实体书,你就可以随意处理该副本,包括销毁它。这意味着购买实体书提供了一种法律上的变通方法。

然而,购买东西是昂贵的,即使它是合法的。因此,像许多AI公司一样,Anthropic最初选择了快速简便的道路。为了获得高质量的训练数据,法庭文件显示,Anthropic最初选择收集盗版书籍的数字化版本,以避免其首席执行官Dario Amodei所说的“法律/实践/商业泥潭”,即与出版商进行复杂的许可谈判。但到了2024年,Anthropic出于法律原因,开始对使用盗版电子书“不那么热衷”,因此需要一个更安全的来源。

购买二手实体书完全避开了许可问题,同时提供了AI模型所需的高质量、经过专业编辑的文本,而破坏性扫描只是数字化数百万卷图书的最快方式。该公司在购买和扫描业务上花费了“数百万美元”,通常是大批量购买二手书。接下来,他们将书籍从装订中剥离,将书页切割成可用的尺寸,将它们作为成堆的书页扫描成包含机器可读文本(包括封面)的PDF,然后丢弃所有纸质原件。

保护与创新:不同的路径

值得注意的是,并非所有机构都选择以破坏性的方式进行数字化。互联网档案馆(Internet Archive)率先采用了非破坏性的图书扫描方法,既保留了实体书籍,又创建了数字副本。OpenAI和微软也宣布与哈佛大学图书馆合作,利用馆藏的近100万册15世纪以来的公共领域书籍训练AI模型,这些书籍在被数字化的同时,也得到了妥善的保存。

法庭文件没有表明在此过程中有任何珍稀书籍被毁,Anthropic是从主要零售商处批量购买书籍的,但很久以前,档案管理员就建立了从纸张中提取信息的其他方法。例如,互联网档案(The Internet Archive)开创了非破坏性的书籍扫描方法,该方法可以在创建数字副本的同时保留物理卷。本月早些时候,OpenAI和微软宣布,他们将与哈佛大学的图书馆合作,利用近100万本可追溯到15世纪的公共领域书籍来训练AI模型,这些书籍已完全数字化,但被保存下来以备将来使用。

当被问及这个过程时,Claude自己用一种从数十亿页被丢弃的文本中提取出来的风格,做出了一个意味深长的回应:“事实上,这种破坏帮助创造了我——一个可以讨论文学、帮助人们写作并参与人类知识的东西——增加了我仍在处理的复杂层次。这就像从图书馆的灰烬中建造出来一样。”

Anthropic的“焚书”行为引发了人们对于AI发展与知识保护之间关系的深刻思考。在追求技术创新的道路上,我们是否应该更加重视对于文化遗产的尊重和保护?如何在满足AI模型对于高质量数据的需求的同时,避免对于实体书籍的过度破坏?这些问题需要我们共同思考和解决。