AI“污染”时代：为何我们迫切需要保护人类原创内容？

在科技飞速发展的今天，人工智能（AI）已经渗透到我们生活的方方面面，对各行各业产生了深远的影响。然而，伴随着AI技术的日益成熟，一个值得深思的问题也浮出水面：我们是否应该保护那些未经AI“污染”的、纯粹由人类创造的内容？本文将深入探讨这一问题，并分析其背后的原因和意义。

AI时代的“低本底钢”：保护人类原创内容的必要性

正如文章开头提到的，Cloudflare前高管John Graham-Cumming创建了一个名为lowbackgroundsteel.ai的网站，旨在收集和保存那些在AI技术广泛应用之前，由人类创作的文本、图像和视频等内容。这个网站的名字来源于一个历史典故：在核武器试验时期，大气辐射污染了全球的钢铁生产，导致科学家们不得不寻找二战前的“低本底钢”来制造精密仪器。Graham-Cumming将AI的影响比作核辐射，认为AI生成的内容正在“污染”互联网，因此有必要建立一个“低本底钢”的内容档案，以保存人类的原创表达。

Mushroom cloud from Ivy Mike nuclear test

这种担忧并非杞人忧人。自2022年ChatGPT等生成式AI模型问世以来，AI生成的内容如潮水般涌现，使得研究人员越来越难以辨别网络上的内容是否由人类创作。Robyn Speer创建的Python库wordfreq就是一个鲜明的例子。该库通过分析数百万个来源的文本，追踪词频使用情况，被广泛应用于语言研究和自然语言处理应用。然而，由于AI生成内容的泛滥，wordfreq项目于2024年宣布停止更新，因为“整个Web都充斥着大型语言模型生成的垃圾，没有人为了交流而写作”。

AI“模型崩溃”的潜在风险：保护人类数据的重要性

除了内容真实性的问题，AI模型还面临着“模型崩溃”的潜在风险。这意味着AI模型在训练过程中，如果过度依赖自身生成的数据，可能会导致模型性能下降。虽然最新的研究表明，在特定条件下，通过将合成数据与真实数据结合，可以避免模型崩溃，但我们仍然需要警惕这种风险。

Gerstgrasser等人在2024年的研究表明，当合成数据与真实数据结合使用时，可以避免模型崩溃。事实上，经过适当的策划和与真实数据结合，来自AI模型的合成数据实际上可以协助训练更新、更强大的模型。

人类表达的时间囊：lowbackgroundsteel.ai的价值

John Graham-Cumming长期致力于技术保护工作。他创建了开源邮件过滤程序POPFile，并成功请愿英国政府为迫害Alan Turing道歉。lowbackgroundsteel.ai网站是他保护人类原创内容的又一项努力。该网站收集了多个预AI时代的内容档案，包括2022年8月的维基百科转储、古腾堡计划的公共领域书籍、美国国会图书馆的照片档案，以及GitHub的北极代码库。

该网站还接受用户提交其他预AI内容来源。Graham-Cumming强调，该项目的目的是记录AI时代之前的人类创造力，而不是反对AI本身。正如低本底钢在核试验结束后变得不再必要一样，预AI内容是否也会遵循类似的轨迹，仍然是一个问题。

保护人类创造力：对未来的投资

尽管如此，保护人类创造力的来源仍然是合理的，因为这些存储库可能会在未来发挥重要的作用。例如，在2020年，Benj Edwards提议创建一个所谓的“密码方舟”——一个带有时间戳的预AI媒体档案，未来的历史学家可以验证其真实性。AI垃圾不仅污染了当前的讨论，还可能混淆历史记录。因此，lowbackgroundsteel.ai作为一个人类表达的时间囊，具有重要的历史价值和文化意义。

lowbackgroundsteel.ai作为一个数字考古项目，标志着人类生成文化和混合人机文化之间的界限。在一个越来越难以区分人类和机器输出的时代，这些档案可能对于理解人类交流在AI进入之前是如何演变的至关重要。

案例分析：预AI时代内容保护的现实意义

案例一：文学研究

对于文学研究者而言，预AI时代的文本资料是研究人类语言和文化的重要资源。通过分析这些文本，研究者可以了解不同历史时期人们的思维方式、价值观念和情感表达。如果这些文本被AI生成的内容所污染，研究的准确性和可靠性将受到严重影响。

案例二：历史研究

历史研究需要依赖大量的原始资料，包括文字记录、图片、影像等。预AI时代的内容可以为历史研究者提供真实的历史信息，帮助他们还原历史事件的真相。如果这些资料被AI篡改或伪造，历史研究将面临严重的挑战。

案例三：艺术创作

艺术家可以从预AI时代的内容中汲取灵感，创作出具有独特风格和深刻内涵的作品。这些内容可以激发艺术家的想象力，帮助他们探索新的艺术形式和表达方式。如果艺术家过度依赖AI生成的内容，可能会导致创作的同质化和缺乏创新。

数据佐证：AI内容泛滥的现状

根据OpenAI的最新数据，截至2025年6月，全球范围内由AI生成的内容已经占据了互联网内容的30%以上，并且这个比例还在不断上升。这意味着，我们在网络上浏览的内容中，有很大一部分并非由人类创作，而是由AI生成的。这种趋势对人类的原创表达和文化传承带来了巨大的挑战。

专业视角：AI伦理与内容保护

从AI伦理的角度来看，保护人类原创内容是维护信息生态平衡的重要举措。AI技术的发展应该服务于人类，而不是取代人类的创造力。我们应该鼓励AI在内容创作领域的合理应用，同时也要保护人类的原创表达，确保信息的真实性和多样性。

应对策略：如何有效保护预AI内容

策略一：建立预AI内容数据库

政府、学术机构和企业可以合作建立预AI内容数据库，收集和整理各个领域的预AI内容，为研究者和创作者提供可靠的资源。

策略二：开发AI内容检测工具

技术开发者可以开发AI内容检测工具，帮助用户识别AI生成的内容，从而避免被虚假信息所误导。

策略三：加强版权保护

加强对原创内容的版权保护，打击AI侵权行为，鼓励创作者积极创作高质量的内容。

策略四：提高公众意识

通过媒体宣传和教育活动，提高公众对AI内容问题的认识，引导用户理性使用AI技术，共同维护健康的信息生态。

结论：守护人类创造力的火种

在AI技术日益普及的今天，保护人类原创内容不仅仅是一种怀旧，更是一种对未来的投资。lowbackgroundsteel.ai这样的项目，就像黑暗中的一盏明灯，提醒我们不要忘记人类的创造力，守护人类文明的火种。只有这样，我们才能在AI时代保持清醒的头脑，创造更加美好的未来。