AI时代的“低本底钢”：如何保护人类原创内容免受AI“污染”？

AI时代的反思：保护“低本底钢”般的人类原创内容

在科技日新月异的今天，人工智能（AI）技术以前所未有的速度渗透到我们生活的方方面面，尤其是在内容创作领域。然而，正如核武器试验对钢铁材料的污染一样，AI生成的内容也给人类的原创内容带来了一场“污染”。本文将深入探讨这一现象，并介绍一种保护人类原创内容的创新方法——“低本底钢”概念的引入。

AI内容爆炸：一场“污染”？

自从2022年ChatGPT等生成式AI模型问世以来，互联网上的AI生成内容呈现爆炸式增长。这给研究人员带来了一个严峻的挑战：如何区分和确保网络上的内容是由人类创作，而非AI工具生成？

Mushroom cloud from Ivy Mike nuclear test

正如冷战时期核试验污染全球钢铁生产一样，今天的互联网也面临着类似的“污染”。为了应对这一挑战，前Cloudflare高管John Graham-Cumming推出了一个名为lowbackgroundsteel.ai的网站，旨在收集和保护未经AI污染的人类原创内容。这个网站将前AI时代的内容视为珍贵的商品，一个来自机器加入对话之前时代的有机创意表达的时间胶囊。

“低本底钢”的启示

“低本底钢”的概念源于冷战时期。核武器试验导致大气辐射污染了新的钢铁生产，因此，科学家们需要寻找无辐射的金属来制造敏感仪器，他们不得不从战前沉船中寻找钢铁。这些钢铁被称为“低本底钢”。

Graham-Cumming将这一概念应用到当今的网络环境中，他认为AI生成的内容与人类创作的材料混合在一起，污染了后者。因此，我们需要像保护“低本底钢”一样，保护和传承人类的原创内容。

wordfreq的陨落与AI的潜在风险

AI内容爆炸已经对一些研究项目产生了直接影响。由研究员Robyn Speer创建的Python库wordfreq就是一个例子。该库通过分析数百万个来源（包括维基百科、电影字幕、新闻文章和社交媒体）来跟踪40多种语言的词频使用情况。然而，由于网络上充斥着大量由大型语言模型生成的无意义内容，该项目于2024年9月宣布停止更新。

除了内容污染，一些研究人员还担心AI模型会训练自己的输出，从而导致质量下降，这种现象被称为“模型崩溃”。不过，最近的证据表明，在某些条件下，这种担忧可能被夸大了。Gerstgrasser等人在2024年进行的研究表明，当合成数据与真实数据一起积累，而不是完全取代真实数据时，可以避免模型崩溃。事实上，如果经过适当的策划并与真实数据结合，来自AI模型的合成数据实际上可以帮助训练更新、更强大的模型。

人类表达的时间胶囊

Graham-Cumming在技术保护方面并不陌生。他是一位英国软件工程师和作家，最著名的是创建了开源电子邮件垃圾邮件过滤程序POPFile，并成功地请愿英国政府为迫害密码破译员艾伦·图灵道歉——英国首相戈登·布朗于2009年发布了道歉。

事实证明，他的pre-AI网站并不新鲜，但直到现在才未宣布就一直处于停滞状态。他在博客上写道：“我在2023年3月创建了它，作为一个在线资源的交换中心，这些资源尚未被AI生成的内容污染。”

该网站指向几个主要的pre-AI内容档案，包括2022年8月的维基百科转储（在ChatGPT于2022年11月发布之前）、古腾堡计划的公共领域书籍收藏、国会图书馆照片档案和GitHub的北极代码库——2020年2月在北极附近的一个前煤矿中埋藏的开源代码快照。wordfreq项目也出现在列表中，从AI污染使其方法站不住脚之前的时间开始进行闪存冻结。

该网站通过其Tumblr页面接受其他pre-AI内容来源的提交。Graham-Cumming强调，该项目旨在记录AI时代之前的人类创造力，而不是发表反对AI本身的声明。随着大气核试验的结束，背景辐射恢复到自然水平，低背景钢最终对大多数用途变得不必要。pre-AI内容是否会遵循类似的轨迹仍然是一个问题。

保护人类创造力：一项紧迫的任务

尽管AI技术在不断进步，但保护人类的创造力仍然至关重要。正如作者在2020年提出的“密码方舟”概念一样，我们需要创建一个带有时间戳的pre-AI媒体档案，以便未来的历史学家可以验证其真实性。AI内容不仅污染了当前的讨论，还可能混淆历史记录。

lowbackgroundsteel.ai作为一个 modest 的人类表达目录，标志着人类生成文化和混合人类-AI文化之间的界限。在这个越来越难以区分人类和机器输出的时代，这些档案可能对理解人类交流在AI进入聊天之前是如何演变的非常有价值。

“低本底钢”的实践意义

那么，我们应该如何像保护“低本底钢”一样保护人类原创内容呢？以下是一些建议：

建立pre-AI内容档案库：
- 参考lowbackgroundsteel.ai的做法，建立一个专门收集和存储pre-AI内容的在线平台。
- 与图书馆、博物馆等机构合作，共同保护和传承pre-AI时代的文化遗产。
- 鼓励个人用户提交自己创作的pre-AI内容，形成一个庞大的pre-AI内容数据库。
开发AI内容检测工具：
- 利用AI技术，开发能够准确识别AI生成内容的工具，帮助研究人员和用户区分人类原创内容和AI生成内容。
- 将AI内容检测工具集成到搜索引擎、社交媒体平台等，让用户可以轻松过滤掉AI生成的内容。
推广“内容溯源”技术：
- 采用区块链等技术，为每一篇人类原创内容添加唯一的数字签名，确保内容的可追溯性和真实性。
- 建立一个公开透明的内容溯源平台，让用户可以验证内容的来源和作者。
加强版权保护：
- 完善版权法律法规，加大对侵犯人类原创内容版权行为的打击力度。
- 推广“先授权，后使用”的版权保护模式，鼓励用户尊重和保护原创内容。

结论：在AI时代坚守人类的创造力

在AI技术飞速发展的今天，我们不能忽视其对人类原创内容带来的潜在威胁。通过引入“低本底钢”的概念，我们可以更好地认识到保护人类原创内容的重要性，并采取有效的措施来应对AI内容爆炸带来的挑战。只有这样，我们才能在AI时代坚守人类的创造力，传承人类文明的精髓。