欧盟AI新规对科技巨头的挑战
欧盟正在积极推动人工智能领域的监管,并发布了一项行为准则,旨在帮助科技巨头们更好地遵守即将生效的《人工智能法案》。这项准则涵盖了版权保护、透明度和公共安全等多个方面,虽然初期以自愿形式推行,但预示着未来AI监管的严格趋势。
规则要点解读
这些规则将于8月2日生效,初期主要针对“通用人工智能”的头部企业。虽然是自愿性质,但欧盟委员会暗示,遵守这些规则的企业可能会在行政负担和法律确定性方面获得优势。反之,拒绝遵守的企业可能需要付出更高的合规成本。
尽管AI行业参与了法案的起草,但部分企业近期呼吁欧盟推迟法案的执行,担心过于严格的限制会阻碍AI创新。其中,最受争议的条款之一是禁止企业使用盗版材料进行AI训练。
长期以来,许多AI公司,包括Meta在内,都曾因使用盗版图书数据集进行AI训练而备受争议。Meta甚至声称,在AI训练中,单本书籍的价值微不足道。但欧盟对此持不同意见,建议科技公司设立专门人员和内部机制,以便在合理的时间内处理版权所有者的投诉,并允许他们选择退出AI训练数据集。
行业面临的挑战
欧盟的这些规定给AI企业带来了多重挑战:
- 数据透明度要求:AI公司需要公开其训练数据的详细信息,包括数据来源和模型设计的关键决策依据。这将有助于揭示各公司模型对公共数据、用户数据、第三方数据、合成数据以及其他新兴数据源的依赖程度。
- 版权保护:新规要求AI公司尊重付费墙和robots.txt协议,以解决AI爬虫过度抓取网站内容的问题。欧盟鼓励在线搜索巨头采纳Cloudflare提出的解决方案,允许内容创作者通过限制AI爬虫来保护版权,同时不影响搜索索引。
- 能耗披露:公司需要披露训练和推理的总能耗,以便欧盟评估AI发展对环境的影响。
- 安全监管:该准则的安全指导意见要求企业加强对新型AI模型的监控,以检测和避免“严重事故”,如网络安全漏洞、关键基础设施中断、人身伤害甚至死亡。企业需要在5到10天内向欧盟AI办公室报告严重事故,并跟踪所有事件,提供充分的网络安全保护,尽力防止模型越狱,并对系统性风险缓解措施的失败或规避行为做出解释。
科技巨头的反应
Ars Technica联系了多家科技公司,希望获得对新规的即时反馈。OpenAI、Meta和微软均拒绝置评。谷歌发言人表示,该公司正在评估该准则,该准则仍需获得欧盟委员会和成员国的批准,预计会受到业界的强烈反对。
谷歌发言人表示:“欧洲人应该能够在第一时间获得一流、安全的AI模型,并拥有一个促进创新和投资的环境。我们期待审查该准则,并与其他模型提供商和许多其他方面分享我们的观点。”
法案的影响
据《纽约时报》报道,这些规则只是《人工智能法案》的一部分,该法案将在未来一年或更长时间内分阶段生效。彭博社指出,违反《人工智能法案》可能导致AI模型下架或处以巨额罚款,最高可达公司年销售额的7%,或开发先进AI模型的公司年销售额的3%。
案例分析:Meta的Llama 3模型
以Meta公司最新发布的Llama 3模型为例,该模型在训练数据方面取得了显著进展。为了确保Llama 3在各个领域的卓越表现,Meta投入了大量资源来收集和清理训练数据。据Meta AI团队介绍,Llama 3的训练数据主要包括以下几个部分:
- 公开数据集:Meta使用了大量公开可用的文本和代码数据集,这些数据集涵盖了各种主题和风格,包括维基百科、书籍、新闻文章、代码库等。通过对这些数据集的分析和学习,Llama 3能够获得广泛的知识和语言能力。
- 专有数据集:除了公开数据集外,Meta还使用了大量的专有数据集。这些数据集包括Meta平台上的用户生成内容、Meta的研究数据、以及Meta与合作伙伴共同收集的数据。这些专有数据集可以帮助Llama 3更好地理解用户需求和特定领域的知识。
- 合成数据集:为了进一步提高Llama 3的性能,Meta还使用了合成数据集。这些数据集是通过模拟和生成的方式创建的,可以用来补充和增强现有的训练数据。例如,Meta可以使用合成数据集来训练Llama 3的对话能力或解决特定任务的能力。
通过对这些数据集的综合利用,Llama 3在语言理解、文本生成、对话交互等多个方面都取得了显著的进展。然而,这也引发了关于数据来源、版权合规以及数据隐私等问题的讨论。欧盟的AI新规无疑将对Meta等公司的数据使用策略产生深远影响。
数据佐证:AI模型训练数据规模的增长
近年来,AI模型的训练数据规模呈现出指数级增长的趋势。以下是一些关键数据点:
- GPT-3:OpenAI的GPT-3模型使用了45TB的文本数据进行训练,参数量达到了1750亿。
- PaLM:谷歌的PaLM模型使用了5400亿个参数,训练数据包括7800亿个tokens。
- Llama 3:Meta的Llama 3模型使用了超过15万亿个tokens进行训练,是Llama 2的7倍。
这些数据表明,AI模型正在变得越来越大,越来越复杂,同时也越来越依赖于海量的数据。然而,这也意味着AI公司需要投入更多的资源来获取、清理和管理训练数据,同时也面临着更高的合规风险。
结论
欧盟的AI新规对科技巨头们提出了更高的要求,迫使它们在追求技术创新的同时,更加重视数据合规、版权保护和用户隐私。虽然短期内可能会增加企业的合规成本,但从长远来看,这些规定有助于建立一个更加健康、可持续的AI生态系统,促进行业的长期发展。