AI发展的重要风险骤降
近日,美国联邦法官裁定,使用受版权保护的作品训练大型语言模型(LLM)属于合理使用。这意味着AI模型可以像人类一样自由地从书籍中学习,为人工智能的进步扫清了一大障碍。
法院裁决:AI学习书籍属合理使用
美国地方法院裁定,使用受版权保护的图书训练LLM构成合理使用。此前,一些作家对Anthropic公司提起诉讼,指控其未经许可使用他们的书籍训练AI模型。法官认为,正如我们允许人们通过阅读书籍来学习,从而成为更优秀的作家(但不能逐字复制受版权保护的文本),AI模型这样做也应被视为合理使用。
法官Alsup指出,作者的诉讼与“抱怨培养优秀学生会导致大量竞争作品涌现”的情况并无不同。虽然该裁决是否会被上诉还有待观察,但这一判决是合理的,对AI发展有利。(声明:笔者并非律师,不提供法律建议。)
AI发展面临的潜在风险
尽管AI发展势头迅猛,但仍有一些因素可能对其构成威胁:
- 监管陷阱:以“AI安全”为名义,扼杀创新,尤其是开源创新。
- 芯片短缺:可能因台湾地区爆发战争而导致。
- 数据获取受限:严格限制AI系统训练数据的获取。
获取高质量数据至关重要。尽管大众媒体关注的是建设大型数据中心和扩大模型规模,但与训练基础模型的公司交流时,我了解到他们面临的日常挑战很大一部分是数据准备。具体来说,他们日常工作的重要部分包括:
- 识别高质量数据(书籍是重要来源之一)。
- 清理数据(裁决中提到Anthropic采取了移除书页页眉、页脚和页码等措施)。
- 进行误差分析,以确定需要获取更多哪种类型的数据。
- 发明新的合成数据生成方法。
数据获取风险的降低
我很高兴看到数据获取方面的一个主要风险有所降低。裁决进一步指出,Anthropic将书籍从纸质格式转换为数字格式(训练所需的步骤)也属于合理使用。然而,对Anthropic不利的是,法官表示,虽然使用合法获取的数据进行训练是合理的,但使用盗版材料(例如从盗版网站下载的文本)则不属于合理使用。因此,Anthropic仍可能在这方面承担责任。其他LLM提供商如果使用可能包含盗版作品的数据集,现在也可能需要重新审视其做法。
总的来说,这项裁决对AI发展是积极的。也许最大的好处是,它减少了AI训练和版权方面的模糊性,并(如果经受住上诉)使合规路线图更加清晰。该决定表明,可以利用合法获取的数据来构建生成变革性输出的模型,以及为此目的将印刷书籍转换为数字格式。但是,从盗版网站下载(以及未经相关版权所有者许可,永久构建用于确定目的的“通用”文本库)不被认为是合理使用。
我非常同情那些担心自己的生计受到AI影响的作家。我不知道正确的解决方案。社会可以通过自由获取更多数据而变得更好;但是,如果一部分人受到严重负面影响,我希望我们能够找到一种公平补偿他们的安排。
数据中心AI实践
在数据中心AI的实践中,高质量的数据是模型训练的基础。数据准备不仅包括数据的收集,还包括清洗、标注和增强等多个环节。高质量的数据能够提升模型的准确性和泛化能力,从而在实际应用中获得更好的效果。
数据清洗是数据准备的重要环节。由于原始数据中可能存在噪声、缺失值和异常值,因此需要进行清洗处理。常见的数据清洗方法包括:
- 去除重复数据:避免重复数据对模型训练产生干扰。
- 处理缺失值:可以使用均值、中位数或插值等方法填充缺失值。
- 处理异常值:可以使用箱线图、Z-score等方法检测和处理异常值。
数据标注是指为数据添加标签或注释,以便模型能够学习数据的特征和规律。数据标注的质量直接影响模型的性能。常见的数据标注方法包括:
- 人工标注:由专业标注人员进行标注,质量较高,但成本较高。
- 半自动标注:结合人工标注和机器标注,提高标注效率。
- 自动标注:使用预训练模型进行标注,速度快,但质量可能较低。
数据增强是指通过对原始数据进行变换,生成新的数据,以增加数据的多样性和数量。数据增强可以提高模型的泛化能力。常见的数据增强方法包括:
- 图像增强:包括旋转、缩放、裁剪、翻转、颜色变换等。
- 文本增强:包括同义词替换、随机插入、随机删除等。
- 音频增强:包括添加噪声、改变音调、改变语速等。
案例分析:Anthropic的数据处理实践
Anthropic在训练其AI模型时,采取了一系列数据处理措施,以确保数据的质量和合规性。例如,他们移除了书页的页眉、页脚和页码,以避免这些非内容信息对模型训练产生干扰。此外,他们还采取了措施,防止使用盗版材料进行训练。
这一案例表明,AI公司在数据处理方面需要投入大量的精力,以确保数据的质量和合规性。只有高质量的数据才能训练出高性能的AI模型。
结论与展望
总而言之,法院的裁决为AI的发展扫清了一大障碍,降低了数据获取方面的风险。然而,AI的发展仍然面临着许多挑战,例如监管、芯片短缺和数据安全等。为了实现AI的可持续发展,需要政府、企业和研究机构共同努力,共同应对这些挑战。
期待AI在未来能够为人类带来更多的福祉,同时也希望社会能够找到一种公平的方式,补偿那些受到AI影响的个人和群体。