在科技日新月异的时代,我们正目睹着一场前所未有的变革。正如科学家们曾经囤积核前时代的钢铁一样,如今,我们也在努力保护着未经人工智能触及的内容。John Graham-Cumming 近期推出了一个名为 lowbackgroundsteel.ai 的网站,旨在将人工智能出现之前由人类创造的内容视为珍贵的商品,一个记录着有机创意表达的时间胶囊。
这个网站的名称“低本底钢”源于冷战时期的一个科学现象。1945年核武器试验开始后,大气辐射污染了全球的钢铁生产。几十年里,科学家们为了获得无辐射的金属,不得不从战前沉船中打捞钢铁,这些钢铁因此被称为“低本底钢”。Graham-Cumming 认为,如今的网络也面临着类似的境况,人工智能生成的内容与人类创作的材料混杂在一起,对后者造成了“污染”。
自2022年 ChatGPT 和 Stable Diffusion 等生成式人工智能模型问世以来,研究人员越来越难以确保在互联网上找到的媒体内容是由人类创作的,且未使用人工智能工具。ChatGPT 的出现尤其引发了人工智能生成文本的泛滥,迫使至少一个研究项目彻底关闭。
这个不幸的牺牲品是 wordfreq,一个由研究员 Robyn Speer 创建的 Python 库,它通过分析数百万个来源(包括维基百科、电影字幕、新闻文章和社交媒体)来跟踪超过40种语言的词频使用情况。该工具被学术界和开发人员广泛用于研究语言的演变以及构建自然语言处理应用程序。然而,该项目在2024年9月宣布停止更新,原因是“整个网络充斥着大型语言模型生成的垃圾,没有人为了交流任何信息而编写这些内容。”
一些研究人员还担心人工智能模型会使用自身的输出来进行训练,这可能会导致质量随着时间的推移而下降,这种现象有时被称为“模型崩溃”。但最近的证据表明,这种担忧在某些情况下可能被夸大了。Gerstgrasser 等人(2024)的研究表明,当合成数据与真实数据一起累积,而不是完全取代真实数据时,可以避免模型崩溃。事实上,如果经过适当的管理并与真实数据相结合,来自人工智能模型的合成数据实际上可以帮助训练更新、更强大的模型。
作为一名技术保护领域的资深人士,Graham-Cumming 曾成功请愿英国政府为迫害Alan Turing一事道歉。现在,他将目光投向了保护人类在人工智能时代之前的创意表达。
这个名为 lowbackgroundsteel.ai 的网站并非新生事物,早在2023年3月就已创建,旨在成为未经人工智能生成内容污染的在线资源的集散地。该网站汇集了多个主要的人工智能前内容档案,包括2022年8月的维基百科转储(在 ChatGPT 于2022年11月发布之前)、古腾堡计划的公共领域图书合集、美国国会图书馆的照片档案以及 GitHub 的 Arctic Code Vault,后者是2020年2月埋藏在北极附近一个废弃煤矿中的开源代码快照。Wordfreq 项目也出现在列表中,仿佛被冻结在人工智能污染使其方法论站不住脚之前的时代。
该网站还接受通过其 Tumblr 页面提交的其他人工智能前内容来源。Graham-Cumming 强调,该项目的目的是记录人工智能时代之前的人类创造力,而不是反对人工智能本身。随着大气核试验的结束和本底辐射恢复到自然水平,低本底钢最终对大多数用途来说变得不必要了。人工智能前内容是否会遵循类似的轨迹仍然是一个问题。
不过,现在保护人类创造力的来源(包括档案)是合理的,因为这些知识库可能会在目前很少有人意识到的方面变得有用。例如,在2020年,我提议创建一个所谓的“密码方舟”——一个带有时间戳的人工智能前媒体档案,未来的历史学家可以验证其真实性,这些媒体是在我当时设定的2022年1月1日的任意截止日期之前收集的。人工智能垃圾不仅污染了当前的讨论,还可能混淆历史记录。在这个人工智能与人类的界限日益模糊的时代,这些档案可能对于理解人类沟通在人工智能介入之前是如何演变的至关重要。
人工智能时代的人类表达:数字考古的必要性
在人工智能技术飞速发展的今天,我们似乎站在了一个历史的转折点。一方面,人工智能以前所未有的速度重塑着内容创作的 landscape;另一方面,我们开始反思和珍视那些未经人工智能触及的、纯粹由人类创造的文化遗产。这不仅仅是一种怀旧,更是一种对人类独特性和创造力的深刻思考。
正如文章开篇提到的“低本底钢”,这个概念最初指的是在核武器试验开始前生产的、未受辐射污染的钢铁。由于现代钢铁在生产过程中暴露于大气中的放射性同位素,科学家们需要使用这些“低本底钢”来制造对辐射高度敏感的设备。这个比喻巧妙地引出了我们今天面临的挑战:如何在人工智能生成内容泛滥的时代,保护和传承那些纯粹由人类创造的文化和知识。
John Graham-Cumming 发起的 lowbackgroundsteel.ai 项目,正是为了应对这一挑战而生。该项目旨在收集和整理在人工智能技术广泛应用之前创作的各种形式的内容,包括文本、图像、音频和视频等。这些内容被视为“低本底”的文化资源,代表着人类在没有人工智能辅助下的真实表达和创造力。
人工智能对内容创作的影响:机遇与挑战
人工智能在内容创作领域的应用,无疑带来了巨大的机遇。人工智能可以快速生成大量的文本、图像和音频内容,极大地提高了生产效率。例如,ChatGPT 等大型语言模型可以根据用户的提示,生成各种风格和主题的文章、故事和对话。Stable Diffusion 等图像生成模型,则可以根据文本描述,创造出逼真的图像和艺术作品。
然而,人工智能在内容创作领域的广泛应用,也带来了一系列挑战。其中最主要的挑战之一,就是如何区分人工智能生成的内容和人类创作的内容。随着人工智能技术的不断进步,人工智能生成的内容越来越难以与人类创作的内容区分开来。这不仅给版权保护带来了新的难题,也对信息的真实性和可靠性提出了更高的要求。
此外,人工智能生成的内容还可能存在偏见和歧视。由于人工智能模型的训练数据往往包含大量的社会偏见,因此人工智能生成的内容也可能带有这些偏见。例如,人工智能在生成人物形象时,可能会倾向于某些种族或性别,从而加剧社会不平等。
保护人工智能前内容:刻不容缓的行动
面对人工智能带来的机遇和挑战,我们必须采取积极的措施,保护那些纯粹由人类创造的文化遗产。这不仅是为了 preserving the past,也是为了 shaping the future。
首先,我们需要建立完善的“人工智能前内容”档案。lowbackgroundsteel.ai 项目就是一个很好的开端,但我们需要更多的机构和个人参与进来,共同 efforts to identify、收集和整理那些未经人工智能触及的内容。这些档案应该包括各种形式的内容,从书籍、文章、照片和视频,到音乐、绘画、雕塑和建筑等。
其次,我们需要开发可靠的工具和技术,用于区分人工智能生成的内容和人类创作的内容。这需要结合多种方法,包括自然语言处理、图像识别和音频分析等。同时,我们也需要建立相应的标准和规范,用于评估内容的真实性和可靠性。
此外,我们还需要加强对人工智能技术的监管。政府和行业组织应该共同制定 ethical guidelines 和 best practices,确保人工智能技术的应用符合伦理道德和社会价值观。这包括限制人工智能在某些敏感领域的应用,例如政治宣传和虚假信息传播等。
人工智能时代的文化传承:人类与机器的共生
在人工智能时代,文化传承面临着前所未有的挑战,但同时也蕴藏着巨大的机遇。我们不应该将人工智能视为威胁,而应该将其视为一种工具,用于增强人类的创造力和表达能力。通过合理利用人工智能技术,我们可以更好地保护和传承那些纯粹由人类创造的文化遗产,同时也能够创造出更加丰富多彩的文化 landscape。
例如,我们可以利用人工智能技术对古籍进行数字化处理,使其更容易被访问和研究。我们还可以利用人工智能技术对古代音乐进行修复和 reconstruction,使其重新焕发活力。此外,我们还可以利用人工智能技术创作出全新的艺术作品,将人类的创造力和人工智能的计算能力相结合。
总之,人工智能时代的人类表达,是一个充满挑战和机遇的时代。我们需要采取积极的措施,保护那些纯粹由人类创造的文化遗产,同时也需要合理利用人工智能技术,增强人类的创造力和表达能力。只有这样,我们才能在人工智能时代实现文化传承和创新的双赢。
结语:迎接人工智能时代的文化新篇章
正如“低本底钢”在特定时期具有重要价值一样,人工智能前内容在今天也具有特殊的意义。它提醒我们,人类的创造力是无价的,我们应该珍惜和保护它。同时,我们也应该拥抱人工智能技术,将其作为一种工具,用于增强人类的创造力和表达能力。在人工智能时代,人类与机器的共生,将开启文化发展的新篇章。