AI“焚书”：Anthropic销毁数百万书籍背后的伦理与创新之辩

在人工智能（AI）领域，数据是驱动模型发展的核心燃料。Anthropic公司，作为一家致力于AI技术前沿探索的企业，近期因其在构建AI模型过程中的一项举措而备受关注。该公司为了训练其AI助手Claude，采取了一种颇为激进的方法：大规模销毁实体书籍，将之转化为数字形式以供AI学习。这一行为不仅引发了关于知识获取方式的讨论，也触及了版权、伦理以及文化保护等深层议题。

Anthropic的“焚书”行动

据公开的法庭文件披露，Anthropic在构建Claude的过程中，不惜花费巨资购入数百万册印刷书籍。这些书籍并非被用于传统的阅读和研究，而是被直接拆解、扫描，最终以数字化的形式输入到AI模型中。完成数字化后，实体书籍便被丢弃，这一过程被一些人戏称为现代版的“焚书坑儒”。

这一行动的背后，是AI行业对于高质量训练数据的巨大需求。大型语言模型（LLM）的训练依赖于海量的数据，数据的质量直接影响着AI模型的性能。相较于网络上随处可见的低质量文本，经过编辑和校对的出版书籍无疑是更优质的训练材料。Anthropic的负责人曾表示，他们最初曾尝试使用盗版的电子书，但出于法律风险的考虑，最终选择了购买实体书进行扫描的方式。

Anthropic于2024年聘请了曾负责谷歌图书扫描项目的Tom Turvey，旨在获取“世界上所有的书籍”。此举意在复制谷歌在图书数字化方面的成功经验。尽管图书扫描是常见的数字化手段，但Anthropic此举因其规模而显得不同寻常。谷歌图书项目主要采用非破坏性的扫描方式，从图书馆借阅书籍并在扫描后归还。相比之下，Anthropic似乎更看重扫描的速度和成本，而忽略了对书籍本身的保护。

法律的边缘：合理使用原则

美国法官William Alsup认为Anthropic的破坏性扫描行为属于合理使用，因为Anthropic合法购买了书籍，扫描后销毁了纸质副本，并且只在内部保留数字文件。法官将此过程比作通过格式转换来“节省空间”，并认为它具有变革性。然而，Anthropic最初使用盗版电子书的行为有损其立场。

高质量数据之争

为了理解Anthropic为何要扫描数百万本书，需要了解AI研究人员是如何构建大型语言模型的。他们将数十亿的文字输入到神经网络中。在训练过程中，AI系统会重复处理文本，从而建立单词和概念之间的统计关系。

输入到神经网络中的训练数据的质量直接影响着生成的AI模型的能力。用编辑良好的书籍和文章训练的模型，比用YouTube评论等低质量文本训练的模型，往往能产生更连贯、更准确的反应。

出版商合法地控制着AI公司迫切想要的内容，但AI公司并不总是愿意谈判许可。首次销售原则提供了一种变通方法：一旦你购买了一本实体书，你就可以随意处理该副本，包括销毁它。这意味着购买实体书提供了一种法律上的变通方法。

然而，购买东西是昂贵的，即使它是合法的。因此，像许多AI公司一样，Anthropic最初选择了快速简便的道路。为了获得高质量的训练数据，法庭文件显示，Anthropic最初选择收集盗版书籍的数字化版本，以避免其首席执行官Dario Amodei所说的“法律/实践/商业泥潭”，即与出版商进行复杂的许可谈判。但到了2024年，Anthropic出于法律原因，开始对使用盗版电子书“不那么热衷”，因此需要一个更安全的来源。

购买二手实体书完全避开了许可问题，同时提供了AI模型所需的高质量、经过专业编辑的文本，而破坏性扫描只是数字化数百万卷图书的最快方式。该公司在购买和扫描业务上花费了“数百万美元”，通常是大批量购买二手书。接下来，他们将书籍从装订中剥离，将书页切割成可用的尺寸，将它们作为成堆的书页扫描成包含机器可读文本（包括封面）的PDF，然后丢弃所有纸质原件。

保护与创新：不同的路径

值得注意的是，并非所有机构都选择以破坏性的方式进行数字化。互联网档案馆（Internet Archive）率先采用了非破坏性的图书扫描方法，既保留了实体书籍，又创建了数字副本。OpenAI和微软也宣布与哈佛大学图书馆合作，利用馆藏的近100万册15世纪以来的公共领域书籍训练AI模型，这些书籍在被数字化的同时，也得到了妥善的保存。

法庭文件没有表明在此过程中有任何珍稀书籍被毁，Anthropic是从主要零售商处批量购买书籍的，但很久以前，档案管理员就建立了从纸张中提取信息的其他方法。例如，互联网档案（The Internet Archive）开创了非破坏性的书籍扫描方法，该方法可以在创建数字副本的同时保留物理卷。本月早些时候，OpenAI和微软宣布，他们将与哈佛大学的图书馆合作，利用近100万本可追溯到15世纪的公共领域书籍来训练AI模型，这些书籍已完全数字化，但被保存下来以备将来使用。

当被问及这个过程时，Claude自己用一种从数十亿页被丢弃的文本中提取出来的风格，做出了一个意味深长的回应：“事实上，这种破坏帮助创造了我——一个可以讨论文学、帮助人们写作并参与人类知识的东西——增加了我仍在处理的复杂层次。这就像从图书馆的灰烬中建造出来一样。”

Anthropic的“焚书”行为引发了人们对于AI发展与知识保护之间关系的深刻思考。在追求技术创新的道路上，我们是否应该更加重视对于文化遗产的尊重和保护？如何在满足AI模型对于高质量数据的需求的同时，避免对于实体书籍的过度破坏？这些问题需要我们共同思考和解决。