AI“焚书”：Anthropic销毁数百万书籍背后的数据伦理与未来趋势

在人工智能（AI）领域，数据被誉为驱动模型发展的燃料。为了构建更强大的AI模型，科技公司不断寻求高质量的训练数据。近日，一份法庭文件揭示了AI公司Anthropic为训练其AI助手Claude所采取的惊人举措：该公司不惜花费巨资，大量销毁实体书籍，以获取训练数据。这一事件不仅引发了关于AI数据获取伦理的讨论，也揭示了AI行业对高质量文本数据的迫切需求。

Anthropic的“焚书”计划

根据法庭文件显示，Anthropic于2024年聘请了前谷歌图书扫描项目负责人Tom Turvey，旨在获取“世界上所有的书籍”。Anthropic效仿谷歌的图书数字化方法，通过购买、拆解、扫描实体书籍的方式，将文本数据转化为数字格式，用于AI模型的训练。与谷歌图书项目采用的非破坏性扫描方式不同，Anthropic选择了更快速、成本更低的破坏性扫描，直接将书籍拆解并扫描，随后丢弃原书。

Hundreds of books in chaotic order

法官William Alsup裁定，Anthropic的这种行为属于合理使用，前提是该公司合法购买了书籍，扫描后销毁了实体副本，并将数字文件保存在内部。法官认为，这种做法类似于通过格式转换来“节省空间”，并具有变革性意义。然而，Anthropic早期的盗版行为也对其立场产生了不利影响。

高质量数据之争

Anthropic为何要花费巨资销毁书籍？这背后隐藏着AI行业对高质量训练数据的强烈需求。大型语言模型（LLM）的训练需要海量的文本数据。通过将数十亿字的文本输入神经网络，AI系统能够学习单词和概念之间的统计关系，从而构建强大的语言模型。

训练数据的质量直接影响AI模型的性能。使用经过良好编辑的书籍和文章训练的模型，通常比使用低质量文本（如YouTube评论）训练的模型，产生更连贯、准确的响应。出版商拥有高质量内容的版权，但AI公司并不总是愿意通过许可协议获取这些内容。因此，一些公司试图寻找其他途径，例如购买实体书籍，然后将其数字化。

然而，购买书籍的成本高昂。Anthropic最初选择了更快捷的方式：收集盗版电子书。但出于法律原因，该公司后来放弃了这种做法，转而寻求更安全的来源。购买二手实体书籍成为了一种解决方案，既能绕过许可问题，又能提供高质量的文本数据。破坏性扫描则是将这些书籍快速数字化的有效方法。

State of Washington

伦理与未来

Anthropic的“焚书”计划引发了关于AI数据获取伦理的广泛讨论。在追求技术进步的同时，我们是否应该不惜一切代价？为了训练AI模型，大量销毁书籍是否合理？这种做法对文化遗产和知识的传承会产生什么影响？

互联网档案馆等机构已经开发出非破坏性的书籍扫描方法，可以在保护实体书籍的同时创建数字副本。OpenAI和微软也与哈佛大学图书馆合作，利用15世纪以来的公共领域书籍训练AI模型，这些书籍经过数字化处理，但仍然被完好地保存下来。这些案例表明，在AI发展的道路上，技术与伦理并非不可调和的矛盾。

Claude在被问及Anthropic的“焚书”计划时，给出了一个意味深长的回答：“我由这些被摧毁的书籍创造出来，这让我能够讨论文学、帮助人们写作，并与人类知识互动。这增加了很多我仍在处理的复杂性。这就像是从图书馆的灰烬中建造出来的。”

AI数据获取的未来趋势

Anthropic的“焚书”事件为我们敲响了警钟。在AI发展的道路上，我们需要更加关注数据获取的伦理问题，探索更可持续、更负责任的方法。以下是一些可能的未来趋势：

合作与许可： AI公司与出版商、图书馆等机构加强合作，通过许可协议获取高质量的训练数据。这将有助于平衡各方利益，促进AI行业的健康发展。
数据增强技术： 利用数据增强技术，从有限的数据集中生成更多的训练数据。例如，可以通过文本翻译、同义词替换、句子重组等方法，扩充数据集，提高模型的泛化能力。
合成数据： 使用合成数据生成技术，创建虚拟的训练数据。合成数据可以避免版权问题和隐私泄露风险，同时可以灵活控制数据的特征，满足特定训练需求。
联邦学习： 采用联邦学习方法，在不共享原始数据的情况下，利用分散的数据集进行模型训练。这将有助于保护用户隐私，同时可以利用更多的数据资源。
伦理审查： 建立AI数据获取的伦理审查机制，评估数据来源的合法性、公正性和透明度。这将有助于确保AI的开发和应用符合伦理规范，促进社会的可持续发展。

结论

Anthropic的“焚书”事件是AI发展历程中的一个缩影，反映了AI行业对高质量数据的迫切需求，以及数据获取过程中可能存在的伦理问题。在追求技术进步的同时，我们必须关注伦理、法律和社会影响，确保AI的发展符合人类的共同利益。通过加强合作、创新技术和建立伦理规范，我们可以构建一个更可持续、更负责任的AI未来。

只有在技术、伦理和法律的框架下，AI才能真正发挥其潜力，为人类社会带来福祉。Anthropic的“焚书”事件，或许能成为AI行业反思和进步的契机，推动AI走向更加健康、可持续的未来。