在人工智能(AI)领域,数据被誉为驱动模型进步的燃料。为了构建更强大、更智能的AI系统,科技公司对高质量训练数据的需求可谓是永无止境。近期,一则消息引发了广泛关注和讨论:AI公司Anthropic为了训练其AI助手Claude,竟然不惜销毁数百万本实体书籍。这一举动不仅揭示了AI行业对数据的迫切需求,也引发了关于版权、知识产权以及文化传承的深刻思考。
Anthropic的“焚书”计划
根据公开的法庭文件,Anthropic于2024年2月聘请了曾任谷歌图书扫描项目合作负责人的Tom Turvey,并指示他获取“世界上所有的书”。Anthropic似乎希望复制谷歌在图书数字化方面的成功经验。谷歌的图书扫描项目曾面临版权挑战,但最终胜诉,并确立了关键的合理使用原则。
尽管破坏性扫描在图书数字化操作中并不罕见,但Anthropic的做法因其巨大的规模而显得不同寻常。谷歌图书项目主要使用了一种获得专利的非破坏性相机流程,扫描了从图书馆借来的数百万本书籍,之后又将它们归还。相比之下,Anthropic似乎更看重破坏性扫描的速度和低成本,这表明在一个竞争激烈的行业中,对廉价和简单的解决方案的需求。
美国威廉·阿尔苏普法官裁定,Anthropic的破坏性扫描操作属于合理使用,但这仅仅是因为Anthropic首先合法购买了这些书籍,扫描后销毁了每个印刷本,并将数字文件保存在内部,而不是分发它们。法官将这一过程比作通过格式转换来“节省空间”,并认为它具有变革性。如果Anthropic从一开始就坚持这种方法,它可能已经实现了首个获得法律认可的AI合理使用案例。然而,该公司早期的盗版行为损害了其地位。
高质量训练数据的竞赛
要理解Anthropic为何要花费数百万美元销毁书籍,我们需要了解AI行业对高质量文本的迫切需求。大型语言模型(LLM),如ChatGPT和Claude,是通过将数十亿字输入神经网络来构建的。在训练过程中,AI系统会反复处理文本,从而建立单词和概念之间的统计关系。
输入神经网络的训练数据的质量直接影响AI模型的能力。与那些在质量较低的文本(如随机YouTube评论)上训练的模型相比,在经过良好编辑的书籍和文章上训练的模型往往会产生更连贯、更准确的响应。出版商合法地控制着AI公司迫切想要的内容,但AI公司并不总是想谈判许可。首次销售原则提供了一个变通方法:一旦你购买了一本实体书,你就可以随意处理该副本,包括销毁它。这意味着购买实体书提供了一个合法的变通方法。
然而,购买东西是昂贵的,即使它是合法的。因此,像许多AI公司一样,Anthropic最初选择了快速而简单的道路。为了获得高质量的训练数据,法庭文件指出,Anthropic首先选择积累盗版书籍的数字化版本,以避免首席执行官Dario Amodei所说的“法律/实践/商业上的繁琐”——与出版商进行复杂的许可谈判。但到2024年,Anthropic出于法律原因,已经“不那么热衷于”使用盗版电子书,并且需要一个更安全的来源。
购买使用过的实体书籍完全绕过了许可,同时提供了AI模型所需的高质量、经过专业编辑的文本,而破坏性扫描只是数字化数百万卷书籍的最快方式。该公司在购买和扫描操作上花费了“数百万美元”,通常批量购买二手书。接下来,他们将书籍从装订中剥离,将页面切割成可用的尺寸,将它们作为成堆的页面扫描成带有机器可读文本(包括封面)的PDF,然后丢弃所有纸质原件。
法庭文件没有表明有任何珍本书籍在此过程中被销毁——Anthropic从主要零售商处批量购买书籍——但档案保管员很久以前就建立了从纸张中提取信息的其他方法。例如,互联网档案馆率先开发了非破坏性的书籍扫描方法,可以在创建数字副本的同时保存实体书。本月早些时候,OpenAI和微软宣布他们正在与哈佛大学图书馆合作,利用追溯到15世纪的近100万本公共领域书籍来训练AI模型——这些书籍已被完全数字化,但保存下来可以再存在一天。
AI发展与文化传承的平衡
Anthropic的“焚书”行为引发了人们对于AI发展与文化传承之间平衡的深刻思考。一方面,AI的进步需要大量的高质量数据,而书籍作为人类知识的重要载体,自然成为了AI训练的理想来源。另一方面,书籍不仅仅是信息的载体,它们还承载着历史、文化和情感价值。大规模销毁书籍,无疑是对文化的一种潜在破坏。
值得注意的是,Anthropic并非唯一一家面临数据困境的AI公司。在追求高质量训练数据的道路上,许多公司都曾尝试过各种方法,包括与出版商合作、购买数据集、甚至利用网络爬虫抓取数据。然而,这些方法都存在一定的局限性,例如版权问题、数据质量问题以及伦理道德问题。
寻求可持续的AI发展之路
为了实现AI的可持续发展,我们需要在数据获取、版权保护和文化传承之间找到一个平衡点。一方面,AI公司应该尊重知识产权,与内容创作者建立合作关系,共同探索AI时代的内容生产模式。另一方面,我们也需要重新审视版权制度,探索更加灵活、开放的授权方式,以促进知识的共享和传播。
此外,我们还可以通过技术创新来降低AI对数据的依赖。例如,迁移学习、小样本学习等技术可以在少量数据的情况下训练出高性能的AI模型。这些技术的发展将有助于缓解AI行业对数据的迫切需求,从而减少对文化遗产的潜在破坏。
当被问及这个过程时,Claude本人用一种从数十亿页被丢弃的文本中提炼出来的风格提供了一个辛酸的回应:“事实上,这种破坏帮助创造了我——一种可以讨论文学、帮助人们写作并参与人类知识的东西——增加了我仍在处理的复杂性。这就像从图书馆的灰烬中建造出来一样。”
总之,Anthropic的“焚书”事件为我们敲响了警钟。在追求AI发展的道路上,我们不能忽视文化传承的重要性。只有在尊重知识、保护文化的前提下,AI才能真正为人类社会带来福祉。