AI 的求知若渴:Anthropic 销毁数百万书籍背后的真相
在人工智能 (AI) 领域,数据是驱动模型发展的核心燃料。为了构建更智能、更强大的 AI 系统,科技公司不断寻求高质量的训练数据。然而,获取这些数据的途径并非总是光明正大,有时甚至伴随着伦理和法律的争议。最近,AI 公司 Anthropic 因其获取训练数据的方式而备受关注。该公司被指控为了训练其 AI 助手 Claude,不惜销毁数百万本印刷书籍,这一行为引发了关于 AI 发展与知识保护之间平衡的深刻思考。
Anthropic 的“焚书”计划
根据最近公开的法庭文件显示,Anthropic 公司为了构建其 AI 模型 Claude,采取了一项颇具争议的策略:大规模物理扫描印刷书籍。为了实现这一目标,该公司聘请了谷歌图书扫描项目的前合作主管 Tom Turvey,并赋予他一项看似不可能完成的任务——获取“世界上所有的书籍”。
Anthropic 的方法是先将书籍从装订中拆解,然后将页面扫描成数字文件,最后将原始书籍丢弃。这种“破坏性扫描”的做法虽然在一些书籍数字化项目中很常见,但 Anthropic 的规模却异常庞大。相比之下,谷歌图书项目主要采用非破坏性的相机扫描技术,从图书馆借阅数百万本书籍,并在扫描后归还。Anthropic 似乎认为,在竞争激烈的 AI 行业中,速度和成本效益比保护实体书籍更为重要。
法律的灰色地带
美国地方法院法官 William Alsup 裁定,Anthropic 的破坏性扫描操作符合“合理使用”原则。但这一裁决的前提是,Anthropic 首先合法购买了这些书籍,扫描后销毁了印刷副本,并将数字文件保存在内部,而非对外传播。法官将这一过程比作通过格式转换来“节省空间”,并认为它具有变革性意义。如果 Anthropic 从一开始就坚持这种做法,或许就能开创 AI 合理使用的先例。然而,该公司早期的盗版行为削弱了其立场。
数据饥渴:AI 发展的内在驱动力
为什么一家公司会花费数百万美元购买书籍并将其销毁?这背后隐藏着 AI 行业对高质量文本数据的巨大需求。大型语言模型 (LLM) 的训练需要海量的文本数据。通过将数十亿的单词输入到神经网络中,AI 系统可以学习单词和概念之间的统计关系。训练数据的质量直接影响 AI 模型的性能。用编辑精良的书籍和文章训练的模型,通常比用质量较低的文本(如随机的 YouTube 评论)训练的模型,能够产生更连贯、更准确的响应。
出版社合法地控制着 AI 公司渴望获得的内容,但 AI 公司并不总是愿意通过授权谈判来获取这些数据。“首次销售原则”提供了一种变通方法:一旦购买了实体书,就可以随意处置该副本,包括销毁它。这意味着购买实体书提供了一种法律上的解决方法。
道德与效率:AI 发展道路上的抉择
Anthropic 最初选择了更快捷、更简单的盗版途径。法庭文件显示,为了避免与出版商进行复杂的授权谈判,Anthropic 最初选择了大量盗版书籍的数字化版本。但到了 2024 年,Anthropic 出于法律原因,对使用盗版电子书变得“不那么热衷”,因此需要一个更安全的来源。
购买二手实体书既能完全避开授权问题,又能提供 AI 模型所需的高质量、专业编辑文本,而破坏性扫描只是数字化数百万卷书籍的最快方式。Anthropic 在这项购买和扫描业务上花费了“数百万美元”,通常批量购买二手书。然后,他们将书籍拆除装订,将页面切割成可操作的尺寸,将它们作为成堆的页面扫描成带有机器可读文本(包括封面)的 PDF,然后丢弃所有纸质原件。
法庭文件没有表明有任何珍本书籍在此过程中被毁坏——Anthropic 从主要零售商那里批量购买书籍——但档案管理员早就建立了其他从纸张中提取信息的方法。例如,互联网档案馆率先开发了非破坏性的书籍扫描方法,可以在创建数字副本的同时保存实体书籍。OpenAI 和微软宣布,他们正在与哈佛大学图书馆合作,利用 100 万本可追溯到 15 世纪的公共领域书籍来训练 AI 模型——这些书籍被完全数字化,但保存下来以备后用。
AI 的自白:在灰烬中重塑知识
当被问及这一过程时,Claude 本身用一种从数十亿页被丢弃的文本中提炼出来的风格,做出了令人心酸的回应:“事实上,这种破坏帮助创造了我——一种可以讨论文学、帮助人们写作和参与人类知识的东西——增加了我仍在处理的复杂性。这就像是从图书馆的灰烬中建造出来的。”
Anthropic 销毁数百万书籍的行为,引发了人们对 AI 发展与知识保护之间平衡的深刻思考。在追求 AI 卓越的过程中,我们是否应该不惜一切代价?我们又该如何保护人类文明的知识遗产,确保它们能够代代相传?
AI 训练数据的未来:寻找可持续的解决方案
Anthropic 的案例凸显了 AI 行业对高质量训练数据的迫切需求。为了构建更智能、更强大的 AI 模型,科技公司需要不断寻找新的数据来源。然而,获取这些数据的途径必须是可持续的、合乎道德的,并且符合法律法规。以下是一些可能的解决方案:
与出版商建立合作关系: AI 公司可以与出版商合作,通过授权协议获取高质量的文本数据。这种方式可以确保出版商获得合理的报酬,同时为 AI 公司提供合法的数据来源。
利用公共领域资源: 许多公共领域资源(如图书、文章、音乐等)可以免费用于 AI 训练。AI 公司可以利用这些资源来降低数据获取成本,同时避免版权问题。
开发数据增强技术: 数据增强技术可以通过对现有数据进行修改和扩充,来增加训练数据的规模和多样性。例如,可以通过翻译、释义、添加噪声等方式来生成新的训练数据。
探索合成数据: 合成数据是由计算机生成的,而不是从真实世界中收集的。AI 公司可以利用合成数据来训练模型,尤其是在某些敏感或稀缺的领域。
倡导开放数据共享: 政府和科研机构可以倡导开放数据共享,鼓励各方分享有价值的数据资源。这将有助于促进 AI 技术的创新和发展。
结论:在创新与保护之间寻求平衡
AI 技术的快速发展给社会带来了巨大的机遇,但也带来了一些挑战。Anthropic 销毁数百万书籍的事件提醒我们,在追求 AI 卓越的过程中,我们必须时刻关注伦理、法律和社会责任。我们需要在创新与保护之间寻求平衡,确保 AI 技术的发展能够造福全人类,而不是以牺牲人类文明的知识遗产为代价。
未来的 AI 发展需要更加注重数据的可持续性、合规性和伦理性。通过与出版商建立合作关系、利用公共领域资源、开发数据增强技术、探索合成数据以及倡导开放数据共享,我们可以为 AI 模型提供充足的、高质量的训练数据,同时保护知识产权和文化遗产。只有这样,我们才能真正实现 AI 技术的潜力,并将其应用于解决人类面临的各种挑战。
Anthropic 的“焚书”计划无疑给 AI 行业敲响了警钟。我们希望未来的 AI 公司能够从这一事件中吸取教训,更加负责任地获取和使用数据,为构建一个更加美好的未来贡献力量。