DeepSeek 新模型涉嫌用 Gemini 数据?AI 数据伦理再引关注

0

DeepSeek 是否真的使用了 Google Gemini 的数据来训练其新 AI 模型?

近日,DeepSeek 发布了其最新的 R1 推理 AI 模型更新版,该模型在多个数学和编程基准测试中表现出了卓越的性能。然而,DeepSeek 对其模型的训练数据来源保持沉默,这引起了一些 AI 研究人员的质疑,他们猜测该模型可能部分基于 Google 的 Gemini AI 系列进行训练。

墨尔本的开发者 Sam Paeach 声称,他发现 DeepSeek 的 R1-0528 模型在用词和表达方式上与 Google Gemini 2.5 Pro 有许多相似之处。虽然这不能作为直接证据,但另一位开发者 —— 匿名的 SpeechMap 项目创始人 —— 也提到,DeepSeek 模型在推理过程中产生的 "思维轨迹" 与 Gemini 的表现非常相似。这一发现再次引发了关于 DeepSeek 是否在训练中使用了竞争对手数据的讨论。

DeepSeek

早在去年 12 月,DeepSeek 就曾因其 V3 模型频繁将自己标识为 OpenAI 的 ChatGPT 而受到指责,这一行为暗示该模型可能是通过 ChatGPT 的聊天记录进行训练的。今年早些时候,OpenAI 向媒体透露,他们发现了 DeepSeek 与 "数据蒸馏" 技术相关的证据。"数据蒸馏" 是一种通过从大型模型中提取信息来训练新模型的方法。彭博社报道称,OpenAI 的合作伙伴微软在 2024 年底发现,很多数据是通过 OpenAI 开发者账户泄露的,这些账户可能与 DeepSeek 有关。

尽管 "提炼" 技术在 AI 界并不罕见,但 OpenAI 明确规定禁止用户使用其模型输出来构建竞争产品。需要注意的是,由于开放网络中充斥着大量低质量内容,许多 AI 模型在训练中往往会错误地模仿彼此的用词和措辞。这使得深度剖析训练数据源变得更加复杂。

人工智能专家 Nathan Lambert 认为,DeepSeek 使用 Google Gemini 的数据进行训练并非不可能。他提到,DeepSeek 拥有充足的资金,能够利用市面上最佳的 API 模型生成合成数据。为了防止数据被提炼,AI 公司们也在不断加强安全措施。例如,OpenAI 已开始要求各组织完成身份验证才能访问某些高级模型,而 Google 也在努力提高其 AI Studio 平台的安全性,限制对模型生成轨迹的访问。

深入分析:DeepSeek 模型训练数据来源的争议点

DeepSeek 最新发布的 R1 推理 AI 模型在性能上取得了显著的提升,尤其是在数学和编程基准测试中。然而,其训练数据的来源问题却引发了业界的广泛关注和猜测。一方面,DeepSeek 官方并未公开详细的训练数据信息,这本身就为各种猜测提供了空间。另一方面,一些开发者和研究人员通过对模型输出结果的分析,发现了一些可能指向 Google Gemini AI 系列的线索。

例如,墨尔本的开发者 Sam Paeach 指出,DeepSeek 的 R1-0528 模型在语言风格和表达方式上与 Google Gemini 2.5 Pro 存在相似之处。虽然这种相似性并不能直接证明 DeepSeek 使用了 Gemini 的数据,但这种观察结果确实值得进一步探讨。更进一步,SpeechMap 项目的匿名创始人表示,DeepSeek 模型在推理过程中展现出的 "思维轨迹" 与 Gemini 的表现高度一致,这无疑加剧了人们对于 DeepSeek 是否使用了竞争对手数据的怀疑。

历史争议:DeepSeek 与 OpenAI 的数据纠纷

事实上,这并非 DeepSeek 首次陷入数据来源的争议。早在去年 12 月,DeepSeek 的 V3 模型就曾被指责频繁将自己标识为 OpenAI 的 ChatGPT。这种行为暗示该模型可能使用了 ChatGPT 的聊天记录进行训练。OpenAI 随后也公开表示,他们发现了 DeepSeek 与 "数据蒸馏" 技术相关的证据。"数据蒸馏" 是一种利用大型模型提取信息来训练新模型的技术,在 AI 领域并不罕见。然而,OpenAI 明确禁止用户使用其模型输出来构建竞争产品,这使得 DeepSeek 的行为更加敏感。

据彭博社报道,OpenAI 的合作伙伴微软在 2024 年底发现,大量数据通过与 DeepSeek 相关的 OpenAI 开发者账户泄露。虽然这些指控并未得到完全证实,但它们无疑给 DeepSeek 的数据来源问题蒙上了一层阴影。这些历史事件表明,DeepSeek 在数据获取和使用方面可能存在一些不规范的行为,这也增加了人们对其最新 R1 模型数据来源的担忧。

"数据蒸馏" 的伦理边界与行业规范

"数据蒸馏" 作为一种常见的模型训练技术,其本身并不违法。然而,当涉及到使用竞争对手的模型数据时,其伦理边界就变得模糊起来。在 AI 领域,大型科技公司通常会投入巨额资金来训练自己的模型,这些模型的数据和算法都属于商业机密。如果一家公司未经授权就使用另一家公司的数据来训练自己的模型,这无疑侵犯了对方的知识产权。

此外,即使数据是通过合法渠道获取的,例如通过 API 接口调用,也可能存在伦理问题。OpenAI 明确规定禁止用户使用其模型输出来构建竞争产品,这意味着即使 DeepSeek 通过 OpenAI 的 API 接口获取了数据,也不应该将其用于训练自己的竞争性模型。这种行为不仅违反了 OpenAI 的服务条款,也可能损害整个 AI 行业的创新生态。

AI 公司如何保护自己的数据?

为了防止自己的数据被竞争对手 "提炼",AI 公司正在采取各种安全措施。OpenAI 已经开始要求各组织完成身份验证才能访问某些高级模型,这可以有效防止恶意用户滥用 API 接口。Google 也在努力提高其 AI Studio 平台的安全性,限制对模型生成轨迹的访问。此外,一些公司还在研究新的数据保护技术,例如差分隐私和联邦学习,这些技术可以在不泄露原始数据的情况下进行模型训练。

尽管这些安全措施可以提高数据保护的水平,但完全杜绝数据泄露几乎是不可能的。在开放的网络环境中,总会存在各种漏洞和攻击手段。因此,AI 公司需要不断加强自身的安全防护能力,及时发现和修复漏洞,并建立完善的数据安全管理制度。只有这样,才能在激烈的市场竞争中保护自己的核心资产。

未来展望:AI 模型训练数据来源的透明化

随着 AI 技术的不断发展,模型训练数据来源的透明化将成为一种趋势。一方面,用户越来越关心 AI 模型的训练数据是否涉及侵权、偏见或其他伦理问题。另一方面,监管机构也可能出台相关法规,要求 AI 公司公开其模型训练数据的详细信息。

为了满足这些需求,AI 公司需要建立完善的数据溯源机制,记录模型训练数据的来源、处理过程和使用方式。此外,公司还可以采用一些技术手段来提高数据的透明度,例如使用区块链技术来记录数据的哈希值,或者使用可解释 AI 技术来分析模型决策过程中的数据依赖关系。

数据来源的透明化不仅可以提高 AI 模型的可靠性和可信度,也有助于促进 AI 技术的健康发展。只有当用户和监管机构能够清楚地了解 AI 模型的训练数据时,才能更好地评估其风险和价值,并制定合理的监管政策。

总而言之,DeepSeek 模型训练数据来源的争议反映了 AI 行业在数据获取和使用方面面临的挑战和机遇。AI 公司需要在追求技术创新的同时,遵守伦理规范和法律法规,建立健康的数据生态系统,才能实现可持续发展。