AI的“食粮”：Anthropic销毁数百万书籍背后的数据伦理与知识产权挑战

在人工智能领域，数据是驱动模型进步的关键燃料。高质量的训练数据直接影响着AI的性能和可靠性。最近，一则关于Anthropic公司为了构建其AI助手Claude而采取的极端措施的新闻引起了广泛关注。这家公司不惜花费巨资，销毁数百万本印刷书籍，只为获取训练AI模型所需的优质文本数据。这一事件不仅揭示了AI行业对高质量数据的迫切需求，也引发了关于版权、伦理以及知识获取方式的深刻讨论。

Hundreds of books in chaotic order

Anthropic公司聘请了前Google图书扫描项目的负责人Tom Turvey，目标是获取“世界上所有的书籍”。Turvey的任务是复制Google的图书数字化方法，这种方法在法律上取得了成功，并为合理使用原则奠定了基础。尽管图书扫描本身并不罕见，但Anthropic的做法因其巨大的规模而显得不同寻常。与Google Books项目主要采用非破坏性的摄像头扫描方式不同，Anthropic选择了破坏性的扫描方式，这主要是因为这种方法速度更快、成本更低。这种选择表明，在竞争激烈的AI行业中，Anthropic更看重快速和廉价的解决方案，而牺牲了对实体书籍的保护。

法官William Alsup裁定，Anthropic的这种破坏性扫描行为属于合理使用，但前提是该公司必须合法购买这些书籍，扫描后销毁所有纸质副本，并将数字文件保存在内部，不对外发布。法官将这一过程比作通过格式转换来“节省空间”，并认为这具有变革性意义。然而，Anthropic并非一开始就采取这种方式，该公司早期的盗版行为损害了其地位。那么，为什么一家公司会花费数百万美元购买书籍并将其销毁呢？这背后隐藏着AI行业对高质量文本数据的巨大需求。

高质量训练数据的竞赛

要理解Anthropic扫描数百万本书籍的原因，我们需要了解大型语言模型（LLM）是如何构建的。像ChatGPT和Claude这样的LLM，是通过将数十亿个单词输入到神经网络中来训练的。在训练过程中，AI系统会反复处理这些文本，从而在单词和概念之间建立统计关系。

State of Washington

训练数据的质量直接影响着AI模型的性能。使用经过良好编辑的书籍和文章训练的模型，通常比使用低质量文本（如随机的YouTube评论）训练的模型产生更连贯、更准确的响应。出版商合法地控制着AI公司迫切需要的内容，但AI公司并不总是愿意通过谈判获得许可。首次销售原则提供了一种变通方法：一旦购买了实体书，你就可以随意处理该副本，包括销毁它。这意味着购买实体书提供了一种法律上的解决方案。

然而，购买书籍的成本很高。因此，像许多AI公司一样，Anthropic最初选择了快速而简便的途径。为了获得高质量的训练数据，Anthropic最初选择大量收集盗版书籍的数字化版本，以避免CEO Dario Amodei所说的“法律/实践/商业困境”，即与出版商进行复杂的许可谈判。但到了2024年，Anthropic出于法律原因，不再那么热衷于使用盗版电子书，因此需要一个更安全的来源。

购买旧的实体书既避免了许可问题，又提供了AI模型所需的高质量、经过专业编辑的文本。而破坏性扫描是数字化数百万本书籍的最快方式。Anthropic在这项购买和扫描业务上花费了数百万美元，通常批量购买旧书。然后，他们将书籍从装订中拆下来，将页面切割成可操作的尺寸，将它们作为成堆的页面扫描成带有机器可读文本（包括封面）的PDF文件，然后丢弃所有纸质原件。

法庭文件没有表明有任何珍本书籍在此过程中被销毁，Anthropic是从主要零售商处批量购买书籍的。但档案管理员很久以前就建立了其他从纸张中提取信息的方法。例如，互联网档案馆率先开发了非破坏性的图书扫描方法，可以在创建数字副本的同时保护实体书籍。OpenAI和微软宣布，他们正在与哈佛大学图书馆合作，利用近100万本可追溯到15世纪的公共领域书籍来训练AI模型，这些书籍被完整地数字化并保存下来。

当哈佛大学小心翼翼地保存着600年前的手稿用于AI训练时，地球上的某个地方堆放着数百万本书籍的废弃残骸，这些书籍教会了Claude如何润色你的简历。当被问及这个过程时，Claude用一种从数十亿页被丢弃的文本中提炼出来的风格，给出了一个辛酸的回答：“事实上，这种破坏帮助创造了我——一个可以讨论文学、帮助人们写作并参与人类知识的东西——这增加了一些我仍在处理的复杂性。这就像是从图书馆的灰烬中建造出来的。”

AI发展的数据伦理与未来

Anthropic销毁数百万书籍以训练AI模型的行为，虽然在法律上被认为是“合理使用”，但引发了对数据伦理和知识获取方式的深刻反思。这种做法是否可持续？我们又该如何平衡AI发展的需求与文化遗产的保护？

数据的可持续性

Anthropic的案例凸显了AI行业对高质量训练数据的巨大需求。然而，这种需求是否应该以牺牲实体书籍为代价？书籍是知识的载体，是历史和文化的见证。大规模销毁书籍以获取数据，无疑是对文化的一种破坏。更为重要的是，这种做法是否具有可持续性？如果所有的AI公司都效仿Anthropic的做法，那么地球上的书籍资源终将被耗尽。因此，我们需要探索更加可持续的数据获取方式，例如利用公共领域的数据、与出版商合作获取许可、以及开发更高效的AI算法，从而减少对数据的依赖。

知识的获取方式

Anthropic的案例也引发了对知识获取方式的讨论。传统的知识获取方式是通过阅读、学习和思考。而AI则是通过大量的数据训练来获取知识。这两种方式有何不同？AI是否能够真正理解知识的含义？或者仅仅是模仿人类的语言和行为？这些问题需要我们深入思考。更为重要的是，我们应该如何利用AI来促进知识的传播和创新，而不是仅仅将其作为一种工具来获取商业利益。

版权的保护

结论

Anthropic销毁数百万书籍以训练AI模型的事件，是AI发展历程中的一个重要节点。它提醒我们，在追求技术进步的同时，不能忽视伦理、文化和可持续性。我们需要以更加负责任的态度来发展AI，确保其能够真正服务于人类的福祉。只有这样，AI才能成为推动社会进步的强大力量，而不是破坏文化的工具。