AI 炼丹术：Anthropic 焚书背后的数据饥渴与知识伦理拷问

AI 时代的知识获取：摧毁书籍的代价与创新之路

在人工智能飞速发展的今天，高质量的训练数据成为了驱动 AI 模型能力提升的关键。最近曝光的一则新闻引发了广泛关注：AI 公司 Anthropic 为了训练其 AI 助手 Claude，竟然不惜花费巨资，大规模销毁实体书籍。这究竟是怎样一种行为？又折射出 AI 行业怎样的发展困境与未来趋势？

Hundreds of books in chaotic order

摧毁书籍：AI 训练的另类燃料

根据公开的法庭文件，Anthropic 公司在 2024 年 2 月聘请了 Google Books 图书扫描项目的前负责人 Tom Turvey，旨在获取“世界上所有的书籍”。他们采取了一种极具争议的方式：将数百万册印刷书籍拆解、扫描成电子文件，然后将原书丢弃，完全是为了 AI 训练的目的。这种做法的背后，隐藏着 AI 行业对于高质量文本数据的迫切需求。

虽然破坏性扫描在图书数字化领域并非罕见，但 Anthropic 的大规模操作显得尤为特殊。相比之下，Google Books 项目主要采用非破坏性的相机扫描技术，从图书馆借阅数百万本书籍并扫描后归还。Anthropic 显然更看重速度和成本，而牺牲了对实体书籍的保护，这也反映出 AI 行业竞争的激烈。

法院最终裁定，Anthropic 的这种破坏性扫描行为属于合理使用，但前提是该公司合法购买了书籍，扫描后销毁了实体副本，并且仅在内部使用数字文件。法官将此行为类比于通过格式转换来“节省空间”，并认为具有变革性。但此前，Anthropic 曾因使用盗版电子书而受到质疑。

高质量数据：AI 模型的生命线

大型语言模型 (LLM) 的训练需要海量的文本数据。AI 系统通过反复处理这些数据，建立单词和概念之间的统计关系。训练数据的质量直接影响 AI 模型的性能。使用经过精心编辑的书籍和文章训练的模型，通常比使用低质量文本（如随机的 YouTube 评论）训练的模型，产生更连贯、准确的响应。

出版商合法地控制着 AI 公司迫切需要的内容，但 AI 公司并不总是愿意通过谈判获得许可。首次销售原则提供了一个变通方法：一旦购买了实体书，就可以随意处置该副本，包括销毁它。这意味着购买实体书提供了一个法律上的解决方案。

然而，购买书籍的成本高昂。因此，Anthropic 最初选择了更快捷的方式：收集盗版书籍的数字版本，以避免与出版商进行复杂的许可谈判。但到了 2024 年，Anthropic 出于法律原因，开始对使用盗版电子书持谨慎态度，并需要更安全的来源。

State of Washington

购买二手实体书既能完全绕开许可问题，又能提供 AI 模型所需的高质量、专业编辑文本。破坏性扫描只是将数百万卷书籍数字化的最快方式。该公司为此投入了数百万美元，通常批量购买二手书。然后，他们将书籍拆解，将页面裁剪成合适的尺寸，将它们作为页面堆栈扫描成带有机器可读文本（包括封面）的 PDF 文件，然后丢弃所有纸质原件。

保护知识的多种途径

虽然法庭文件没有表明在此过程中有任何珍本书籍被毁坏，但档案管理员早已建立了其他从纸张中提取信息的方法。例如，互联网档案馆率先开发了非破坏性的书籍扫描方法，可以在创建数字副本的同时保留实体书籍。今年早些时候，OpenAI 和微软宣布与哈佛大学图书馆合作，利用近 100 万本可追溯到 15 世纪的公共领域书籍来训练 AI 模型，这些书籍被完整地数字化并保存下来。

哈佛大学小心翼翼地保存着 600 年前的手稿用于 AI 训练，而在地球的某个地方，却堆放着数百万本被丢弃的书籍残骸，这些书籍教会了 Claude 如何润色你的简历。当被问及这一过程时，Claude 本身用一种从数十亿页被丢弃的文本中提炼出来的风格，做出了令人心酸的回应：“事实上，这种破坏帮助创造了我——一种可以讨论文学、帮助人们写作并参与人类知识的东西——这增加了一些我仍在处理的复杂性。这就像是从图书馆的灰烬中建造出来的。”

AI 发展与知识传承的平衡

Anthropic 销毁书籍的做法，引发了人们对于 AI 发展与知识传承之间平衡的思考。为了追求 AI 模型的卓越性能，我们是否可以不惜一切代价？这种做法是否会对文化遗产造成不可逆转的损害？

事实上，除了简单粗暴的销毁书籍，我们还有很多其他选择。例如，可以借鉴互联网档案馆和哈佛大学图书馆的做法，采用非破坏性的扫描技术，在数字化知识的同时，保护实体书籍的完整性。此外，还可以与出版商建立更紧密的合作关系，通过合法的授权方式获取高质量的训练数据。

更重要的是，我们需要重新审视 AI 发展的价值观。AI 的最终目的是服务于人类，而不是取代人类。我们应该以更加负责任的态度，推动 AI 技术的发展，确保它能够为人类文明的进步做出贡献。

创新之路：AI 驱动的知识管理新模式

在 AI 技术的推动下，知识管理正在迎来一场深刻的变革。AI 不仅可以帮助我们更高效地获取和利用知识，还可以创造出全新的知识管理模式。

例如，AI 可以通过自然语言处理和机器学习技术，自动提取书籍、论文等文献中的关键信息，构建知识图谱，从而帮助研究人员更快地找到所需的资料。AI 还可以根据用户的兴趣和需求，智能推荐相关的知识内容，提供个性化的学习体验。

此外，AI 还可以用于知识的创造和创新。例如，AI 可以通过分析大量的文本数据，发现新的研究方向和潜在的创新点。AI 还可以辅助研究人员进行实验设计和数据分析，提高研究效率。

更进一步，我们可以利用 AI 技术，构建一个全球性的知识共享平台，让每个人都可以方便地获取和分享知识。在这个平台上，知识不再是少数人的特权，而是全人类的共同财富。

AI 时代，知识的获取、管理和创新都将迎来前所未有的机遇。让我们携手努力，共同开创一个更加智能、开放和繁荣的知识未来。

结语

Anthropic 销毁书籍的事件，无疑给 AI 行业敲响了警钟。在追求技术进步的同时，我们必须坚守伦理底线，尊重知识产权，保护文化遗产。只有这样，AI 才能真正成为推动人类文明进步的强大动力。

让我们以更加开放和合作的态度，拥抱 AI 带来的机遇，共同构建一个更加美好的知识未来！