AI“核辐射”：如何保护前AI时代的人类原创内容？

在科技日新月异的今天，人工智能（AI）以前所未有的速度渗透到我们生活的方方面面，特别是在内容创作领域，其影响力更是如核弹般爆发。一篇发表在Ars Technica上的文章，以“核辐射”为比喻，生动地描绘了AI对内容生态的“污染”，以及由此引发的对“前AI时代”内容纯洁性的珍视与保护。

文章开篇便引人深思：曾经的科学家们囤积着核爆前的钢铁，以获取未受辐射污染的纯净材料；而如今，我们是否也应该开始囤积那些未经AI触碰的内容，以保留人类创作的原始风貌？

Mushroom cloud from Ivy Mike nuclear test

低背景钢：前AI内容的避难所

约翰·格雷厄姆-卡明，前Cloudflare高管，最近推出一个名为lowbackgroundsteel.ai的网站，这个名字本身就充满了隐喻。它将前AI时代、由人类创造的内容视作珍贵的商品，一个记录着有机创意表达的时间胶囊，一个机器尚未参与对话的时代。格雷厄姆-卡明在博客中写道，其目的是为了突出那些在AI生成内容爆炸之前产生的文本、图像和视频资源，从而保护那些使非AI媒体独具人性化的特质。

“低背景钢”这一名称源于冷战时期的一个科学现象。1945年核武器试验开始后，大气辐射污染了全球钢铁生产。几十年里，科学家们为了获得无辐射金属用于精密仪器，不得不从战前沉船中打捞钢铁，这些钢铁被称为“低背景钢”。格雷厄姆-卡明认为，今天的网络与当时的情况有着惊人的相似之处：AI生成的内容与人类创造的材料混杂在一起，并逐渐“污染”后者。

AI浪潮下的内容危机

2022年，随着ChatGPT和Stable Diffusion等生成式AI模型的出现，研究人员越来越难以确保在互联网上找到的媒体是由人类创造的，且未使用AI工具。特别是ChatGPT，它引发了网络上AI生成文本的雪崩，迫使至少一个研究项目彻底关闭。

其中一个牺牲品是wordfreq，这是一个由研究员Robyn Speer创建的Python库，它通过分析包括维基百科、电影字幕、新闻文章和社交媒体在内的数百万个来源，追踪超过40种语言的词频使用情况。该工具被学者和开发者广泛用于研究语言的演变，以及构建自然语言处理应用程序。然而，由于“整个网络充斥着大型语言模型生成的垃圾，没有人为了交流任何事物而写”，该项目于2024年9月宣布停止更新。

一些研究人员还担心AI模型会训练自己的输出，从而可能导致质量随着时间的推移而下降，这种现象有时被称为“模型崩溃”。但最近的证据表明，这种担忧在某些条件下可能被夸大了。Gerstgrasser等人（2024）的研究表明，当合成数据与真实数据一起积累，而不是完全取代真实数据时，可以避免模型崩溃。事实上，如果经过适当的策划并与真实数据相结合，来自AI模型的合成数据实际上可以帮助训练更新、更强大的模型。

人类表达的时间胶囊

格雷厄姆-卡明对技术保护工作并不陌生。他是一位英国软件工程师和作家，最著名的事迹包括创建开源电子邮件垃圾邮件过滤程序POPFile，以及成功请愿英国政府为迫害密码破译员艾伦·图灵道歉——英国首相戈登·布朗于2009年发表了道歉。

事实上，他的前AI网站并非新事物，只是直到现在才宣布。“我在2023年3月创建了它，作为一个在线资源的交换中心，这些资源没有被AI生成的内容污染，”他在博客中写道。

该网站指向几个主要的AI前内容档案，包括2022年8月的维基百科转储（在ChatGPT于2022年11月发布之前）、古腾堡计划的公共领域书籍合集、美国国会图书馆的照片档案，以及GitHub的北极代码库——2020年2月埋在北极附近一个废弃煤矿中的开源代码快照。wordfreq项目也出现在列表中，它被冻结在AI污染使其方法论站不住脚的时代之前。

该网站通过其Tumblr页面接受其他前AI内容来源的提交。格雷厄姆-卡明强调，该项目的目的是记录AI时代之前的人类创造力，而不是发表反对AI本身的声明。正如大气核试验结束后，背景辐射恢复到自然水平一样，低背景钢最终对大多数用途来说变得不必要。前AI内容是否会遵循类似的轨迹仍然是一个问题。

尽管如此，现在保护人类创造力的来源（包括档案）是合理的，因为这些存储库可能会在当下很少有人意识到的方面变得有用。例如，在2020年，我提议创建一个所谓的“密码方舟”——一个带有时间戳的前AI媒体档案，未来的历史学家可以验证其真实性，这些档案在我当时设定的2022年1月1日的任意截止日期之前收集。AI垃圾不仅污染了当前的讨论，还可能混淆历史记录。

目前，lowbackgroundsteel.ai作为一个适度的人类表达目录而存在，它可能在未来被视为最后一个前AI时代。这是一个数字考古项目，标志着人类生成文化和混合人类-AI文化之间的界限。在这个区分人类和机器输出变得越来越困难的时代，这些档案可能对于理解在AI进入聊天之前人类交流是如何演变的非常有价值。

Photo of Benj Edwards

AI时代的反思与前瞻

这篇文章不仅仅是对过去的回顾，更是对未来的警醒。它提醒我们，在AI技术飞速发展的今天，保护人类的创造力和文化遗产显得尤为重要。正如我们需要低背景钢来制造精密仪器一样，我们也需要“低背景内容”来滋养人类的智慧和情感。

那么，我们应该如何应对AI带来的挑战，保护和传承人类的文化遗产呢？

建立可信的内容源：效仿lowbackgroundsteel.ai的做法，建立一系列经过认证的、未受AI污染的内容库，为研究人员和创作者提供可靠的原始素材。
开发AI内容检测工具：加强对AI生成内容的识别和标记技术，帮助人们区分人类创作和机器创作的内容，避免信息污染。
倡导伦理AI的使用：推动AI技术的伦理应用，确保AI在内容创作中发挥辅助作用，而不是取代人类的创造力。
加强版权保护：完善版权法律法规，保护原创作者的权益，鼓励人类创作，打击AI侵权行为。
培养批判性思维：提高公众对AI生成内容的认知，培养批判性思维，避免盲目接受和传播虚假信息。

结语：在AI的浪潮中坚守人类的灯塔

AI技术的发展无疑给内容创作带来了巨大的变革，但我们不能因此而迷失方向。保护人类的创造力，传承人类的文化遗产，是我们在AI时代必须坚守的底线。只有这样，我们才能确保AI真正成为人类进步的助力，而不是文化衰退的加速器。

lowbackgroundsteel.ai网站的出现，无疑为我们敲响了警钟。它提醒我们，在追逐技术进步的同时，不要忘记保护那些真正使我们成为人类的东西——我们的创造力、情感和智慧。让我们共同努力，在AI的浪潮中坚守人类的灯塔，照亮未来的道路。