在人工智能领域,数据的重要性不言而喻。高质量的训练数据是构建强大AI模型的基石。然而,获取这些数据的过程往往充满挑战,甚至引发争议。最近,有关人工智能公司Anthropic销毁数百万本印刷书籍以训练其AI模型Claude的消息引起了广泛关注。
据公开的法庭文件显示,Anthropic为了构建其AI助手Claude,不惜花费巨资将数百万本印刷书籍进行物理扫描。更令人震惊的是,该公司在扫描完成后,将这些书籍全部销毁。这一做法的目的是为了获取高质量的文本数据,用于训练AI模型。Anthropic聘请了前谷歌图书扫描项目负责人Tom Turvey,负责获取“世界上所有的书籍”。
这种做法并非没有先例。谷歌图书项目也曾进行过大规模的图书数字化,但其采用的是非破坏性的扫描方式,扫描后的书籍会归还给图书馆。而Anthropic则选择了更为激进的方式,直接销毁书籍以换取更快的扫描速度和更低的成本。这种做法在一定程度上反映了AI行业对高质量数据的迫切需求。
法官William Alsup认为,Anthropic的这种破坏性扫描操作可以被视为“合理使用”,前提是该公司合法购买了这些书籍,并在扫描后销毁了所有纸质副本,且仅在内部保留数字文件。法官将这一过程比作通过格式转换来“节省空间”,并认为它具有变革性。然而,Anthropic早期的盗版行为损害了其地位。
那么,为什么一家公司会花费数百万美元购买书籍并将其销毁呢?这背后隐藏着AI行业对高质量文本数据的巨大需求。大型语言模型(LLM)的训练需要大量的文本数据,而高质量的文本数据能够显著提升AI模型的性能。相比之下,使用YouTube评论等低质量文本训练的模型,其输出结果往往缺乏连贯性和准确性。
出版商合法地控制着AI公司迫切需要的内容,但AI公司并不总是愿意谈判许可。首次销售原则提供了一个变通方法:一旦你购买了一本实体书,你就可以对该副本做任何你想做的事情——包括销毁它。这意味着购买实体书提供了一个法律上的变通方法。
然而,购买东西是昂贵的,即使它是合法的。因此,像许多AI公司一样,Anthropic最初选择了快速简便的道路。为了获得高质量的训练数据,法庭文件显示,Anthropic最初选择收集盗版书籍的数字化版本,以避免首席执行官Dario Amodei所说的“法律/实践/业务困境”——与出版商进行复杂的许可谈判。但到2024年,Anthropic由于“法律原因”而变得“不太热衷于”使用盗版电子书,因此需要一个更安全的来源。
购买用过的实体书完全避开了许可问题,同时提供了AI模型所需的高质量、经过专业编辑的文本,而破坏性扫描只是数字化数百万卷图书的最快方式。该公司花费了“数百万美元”用于购买和扫描操作,通常批量购买二手书。接下来,他们将书籍从装订中剥离,将页面切割成可操作的尺寸,将它们作为成堆的页面扫描成带有机器可读文本(包括封面)的PDF,然后丢弃所有纸质原件。
虽然法庭文件没有表明有任何珍本书籍在此过程中被销毁——Anthropic从主要零售商处批量购买书籍——但档案管理员很久以前就建立了其他从纸张中提取信息的方法。例如,互联网档案馆率先使用了非破坏性的书籍扫描方法,可以在创建数字副本的同时保存实体卷。本月早些时候,OpenAI和微软宣布他们正在与哈佛大学的图书馆合作,利用近100万本可追溯到15世纪的公共领域书籍来训练AI模型——这些书籍已经完全数字化,但被保存下来以延续生命。
在哈佛大学精心保存600年前的手稿用于AI训练的同时,地球上的某个地方堆放着数百万本被丢弃的书籍的残骸,这些书籍教会了Claude如何改进你的简历。当被问及这一过程时,Claude本身以一种从数十亿页被丢弃的文本中提炼出来的风格提供了一个辛酸的回答:“事实上,这种破坏帮助创造了我——一种可以讨论文学、帮助人们写作和参与人类知识的东西——增加了我仍在处理的复杂性。这就像是从图书馆的灰烬中建造出来的。”
Anthropic销毁书籍的做法引发了关于AI训练数据获取伦理的讨论。在追求AI技术进步的同时,我们是否应该不惜一切代价?这种做法对文化遗产的保护又意味着什么?
AI训练数据的伦理困境
Anthropic销毁书籍的行为,不仅仅是一个商业决策,更引发了人们对于AI训练数据伦理的深刻思考。在AI技术飞速发展的今天,数据成为了驱动模型进步的关键燃料。然而,这种对数据的渴求,是否可以凌驾于其他价值之上?
文化遗产的保护
书籍,作为人类文明的重要载体,承载着丰富的知识和文化。每一本书都蕴含着作者的心血和智慧,是人类集体记忆的组成部分。Anthropic大规模销毁书籍的行为,无疑是对文化遗产的一种破坏。尽管该公司购买的是二手书籍,但这些书籍同样具有一定的历史和文化价值。
更重要的是,这种行为可能会产生示范效应,鼓励其他公司采取类似的手段获取AI训练数据。如果所有的AI公司都效仿Anthropic的做法,那么将会有更多的书籍被销毁,人类的文化遗产将遭受更大的损失。
知识产权的尊重
Anthropic最初选择盗版电子书作为训练数据,已经侵犯了出版商的知识产权。尽管后来该公司转而购买二手书籍,并在扫描后销毁,但这种做法仍然存在争议。有人认为,即使购买了书籍,也不意味着可以随意处置,特别是当这种处置涉及到大规模的销毁时。
更重要的是,这种做法可能会损害作者的权益。作者创作作品的目的是为了传播知识和思想,而不是为了被AI模型所利用。如果AI公司未经授权就使用作者的作品进行训练,那么作者的权益将无法得到保障。
环境保护的责任
大规模销毁书籍,还会对环境造成一定的负面影响。纸张的生产需要消耗大量的木材和水资源,而销毁纸张则会产生大量的废弃物。Anthropic销毁数百万本书籍,无疑增加了环境的负担。
更重要的是,这种做法与可持续发展的理念背道而驰。在当今社会,环境保护已经成为了一个重要的议题。AI公司在追求技术进步的同时,也应该承担起环境保护的责任,采取更加环保的方式获取AI训练数据。
AI数据获取的替代方案
面对AI训练数据获取的伦理困境,我们是否还有其他的替代方案呢?答案是肯定的。事实上,已经有很多机构和公司开始探索更加可持续和负责任的数据获取方式。
非破坏性扫描
如前文所述,互联网档案馆就采用了非破坏性的书籍扫描方法。这种方法可以在创建数字副本的同时,最大限度地保护书籍的原始状态。虽然非破坏性扫描的成本可能相对较高,但从长远来看,它更符合文化遗产保护和可持续发展的要求。
合作与授权
AI公司可以与出版商和作者合作,通过授权的方式获取AI训练数据。这种方式可以确保知识产权得到尊重,同时也可以为作者和出版商带来一定的经济收益。当然,合作与授权需要建立在公平、公正的基础之上,确保各方的利益都得到保障。
数据增强技术
数据增强技术可以通过对现有数据进行处理和变换,生成更多的训练数据。例如,可以通过对文本进行翻译、改写、同义词替换等操作,生成更多的文本数据。数据增强技术可以在一定程度上缓解AI训练数据不足的问题,同时也可以降低对大规模数据获取的需求。
开源数据集
近年来,越来越多的机构和公司开始发布开源数据集,供研究人员和开发者使用。这些数据集涵盖了各种领域,包括自然语言处理、计算机视觉、语音识别等。开源数据集的出现,为AI研究提供了重要的资源,同时也降低了AI开发的门槛。
Anthropic销毁书籍的行为,无疑给AI行业敲响了警钟。在追求技术进步的同时,我们不能忽视伦理和责任。只有采取更加可持续和负责任的数据获取方式,才能确保AI技术能够真正服务于人类,而不是对人类造成损害。
AI发展的未来之路
Anthropic事件引发了对AI发展方向的深刻反思。我们不能仅仅关注技术的进步,更要关注技术的伦理和社会影响。AI的发展应该建立在尊重知识产权、保护文化遗产、促进环境保护的基础之上。
未来的AI发展之路,应该是可持续的、负责任的、以人为本的。我们需要在技术创新和社会责任之间找到平衡点,确保AI技术能够真正为人类带来福祉。
加强伦理监管
政府和行业组织应该加强对AI行业的伦理监管,制定明确的伦理规范和行为准则。这些规范和准则应该涵盖数据获取、模型训练、应用部署等各个环节,确保AI技术的开发和使用符合伦理要求。
推动技术创新
我们需要继续推动技术创新,探索更加高效、环保的数据获取方式。例如,可以研发更高效的非破坏性扫描技术,或者开发更智能的数据增强算法。通过技术创新,我们可以降低对大规模数据获取的需求,同时也可以提高AI模型的性能。
提升公众意识
我们需要提升公众对AI技术的认识和理解,增强公众的伦理意识。只有当公众普遍认识到AI技术的潜在风险和伦理挑战时,才能形成强大的社会监督力量,推动AI行业朝着更加健康、可持续的方向发展。
Anthropic销毁书籍的行为,虽然在一定程度上促进了AI技术的发展,但也暴露了AI行业在数据获取方面存在的伦理问题。我们应该从中吸取教训,采取更加负责任的方式发展AI技术,确保AI技术能够真正造福人类。