在人工智能领域,数据是驱动模型进步的关键燃料。高质量的训练数据直接影响着AI的性能和可靠性。最近,一则关于Anthropic公司为了构建其AI助手Claude而采取的极端措施的新闻引起了广泛关注。这家公司不惜花费巨资,销毁数百万本印刷书籍,只为获取训练AI模型所需的优质文本数据。这一事件不仅揭示了AI行业对高质量数据的迫切需求,也引发了关于版权、伦理以及知识获取方式的深刻讨论。
Anthropic公司聘请了前Google图书扫描项目的负责人Tom Turvey,目标是获取“世界上所有的书籍”。Turvey的任务是复制Google的图书数字化方法,这种方法在法律上取得了成功,并为合理使用原则奠定了基础。尽管图书扫描本身并不罕见,但Anthropic的做法因其巨大的规模而显得不同寻常。与Google Books项目主要采用非破坏性的摄像头扫描方式不同,Anthropic选择了破坏性的扫描方式,这主要是因为这种方法速度更快、成本更低。这种选择表明,在竞争激烈的AI行业中,Anthropic更看重快速和廉价的解决方案,而牺牲了对实体书籍的保护。
法官William Alsup裁定,Anthropic的这种破坏性扫描行为属于合理使用,但前提是该公司必须合法购买这些书籍,扫描后销毁所有纸质副本,并将数字文件保存在内部,不对外发布。法官将这一过程比作通过格式转换来“节省空间”,并认为这具有变革性意义。然而,Anthropic并非一开始就采取这种方式,该公司早期的盗版行为损害了其地位。那么,为什么一家公司会花费数百万美元购买书籍并将其销毁呢?这背后隐藏着AI行业对高质量文本数据的巨大需求。
高质量训练数据的竞赛
要理解Anthropic扫描数百万本书籍的原因,我们需要了解大型语言模型(LLM)是如何构建的。像ChatGPT和Claude这样的LLM,是通过将数十亿个单词输入到神经网络中来训练的。在训练过程中,AI系统会反复处理这些文本,从而在单词和概念之间建立统计关系。
训练数据的质量直接影响着AI模型的性能。使用经过良好编辑的书籍和文章训练的模型,通常比使用低质量文本(如随机的YouTube评论)训练的模型产生更连贯、更准确的响应。出版商合法地控制着AI公司迫切需要的内容,但AI公司并不总是愿意通过谈判获得许可。首次销售原则提供了一种变通方法:一旦购买了实体书,你就可以随意处理该副本,包括销毁它。这意味着购买实体书提供了一种法律上的解决方案。
然而,购买书籍的成本很高。因此,像许多AI公司一样,Anthropic最初选择了快速而简便的途径。为了获得高质量的训练数据,Anthropic最初选择大量收集盗版书籍的数字化版本,以避免CEO Dario Amodei所说的“法律/实践/商业困境”,即与出版商进行复杂的许可谈判。但到了2024年,Anthropic出于法律原因,不再那么热衷于使用盗版电子书,因此需要一个更安全的来源。
购买旧的实体书既避免了许可问题,又提供了AI模型所需的高质量、经过专业编辑的文本。而破坏性扫描是数字化数百万本书籍的最快方式。Anthropic在这项购买和扫描业务上花费了数百万美元,通常批量购买旧书。然后,他们将书籍从装订中拆下来,将页面切割成可操作的尺寸,将它们作为成堆的页面扫描成带有机器可读文本(包括封面)的PDF文件,然后丢弃所有纸质原件。
法庭文件没有表明有任何珍本书籍在此过程中被销毁,Anthropic是从主要零售商处批量购买书籍的。但档案管理员很久以前就建立了其他从纸张中提取信息的方法。例如,互联网档案馆率先开发了非破坏性的图书扫描方法,可以在创建数字副本的同时保护实体书籍。OpenAI和微软宣布,他们正在与哈佛大学图书馆合作,利用近100万本可追溯到15世纪的公共领域书籍来训练AI模型,这些书籍被完整地数字化并保存下来。
当哈佛大学小心翼翼地保存着600年前的手稿用于AI训练时,地球上的某个地方堆放着数百万本书籍的废弃残骸,这些书籍教会了Claude如何润色你的简历。当被问及这个过程时,Claude用一种从数十亿页被丢弃的文本中提炼出来的风格,给出了一个辛酸的回答:“事实上,这种破坏帮助创造了我——一个可以讨论文学、帮助人们写作并参与人类知识的东西——这增加了一些我仍在处理的复杂性。这就像是从图书馆的灰烬中建造出来的。”
AI发展的数据伦理与未来
Anthropic销毁数百万书籍以训练AI模型的行为,虽然在法律上被认为是“合理使用”,但引发了对数据伦理和知识获取方式的深刻反思。这种做法是否可持续?我们又该如何平衡AI发展的需求与文化遗产的保护?
数据的可持续性
Anthropic的案例凸显了AI行业对高质量训练数据的巨大需求。然而,这种需求是否应该以牺牲实体书籍为代价?书籍是知识的载体,是历史和文化的见证。大规模销毁书籍以获取数据,无疑是对文化的一种破坏。更为重要的是,这种做法是否具有可持续性?如果所有的AI公司都效仿Anthropic的做法,那么地球上的书籍资源终将被耗尽。因此,我们需要探索更加可持续的数据获取方式,例如利用公共领域的数据、与出版商合作获取许可、以及开发更高效的AI算法,从而减少对数据的依赖。
知识的获取方式
Anthropic的案例也引发了对知识获取方式的讨论。传统的知识获取方式是通过阅读、学习和思考。而AI则是通过大量的数据训练来获取知识。这两种方式有何不同?AI是否能够真正理解知识的含义?或者仅仅是模仿人类的语言和行为?这些问题需要我们深入思考。更为重要的是,我们应该如何利用AI来促进知识的传播和创新,而不是仅仅将其作为一种工具来获取商业利益。
版权的保护
Anthropic的案例还涉及到版权问题。尽管该公司购买了书籍并销毁了纸质副本,但其行为仍然引发了对版权的担忧。如果AI公司可以随意复制和使用受版权保护的作品,那么作者和出版商的权益将如何得到保障?我们需要建立更加完善的版权保护机制,以平衡AI发展的需求与版权所有者的权益。这包括明确AI训练数据的来源和使用方式、建立合理的许可制度、以及加强对侵权行为的打击力度。
结论
Anthropic销毁数百万书籍以训练AI模型的事件,是AI发展历程中的一个重要节点。它提醒我们,在追求技术进步的同时,不能忽视伦理、文化和可持续性。我们需要以更加负责任的态度来发展AI,确保其能够真正服务于人类的福祉。只有这样,AI才能成为推动社会进步的强大力量,而不是破坏文化的工具。