OpenAI 与 Epoch AI 合作风波：透明度缺失引发“造假”质疑

近日，人工智能领域再次掀起波澜。OpenAI与Epoch AI在FrontierMath基准测试项目上的合作，因透明度缺失和数据访问问题，引发了广泛的质疑和讨论。这场风波不仅暴露了AI研究中潜在的伦理问题，也引发了人们对AI模型评估可靠性的担忧。

质疑和讨论

FrontierMath是一个旨在评估前沿数学模型能力的基准测试项目，由Epoch AI开发，并由著名数学家陶哲轩担任委员会委员。这个基准测试被认为是目前最难的数学测试之一，旨在衡量AI模型在复杂数学问题上的解决能力。

然而，最近有消息曝出，OpenAI不仅为FrontierMath基准测试提供资金支持，还获得了测试题库的特权访问权。这一消息的曝光，立刻引发了人们对OpenAI o3模型在FrontierMath基准测试中取得成绩的质疑。

据报道，Epoch AI的承包商Meemi在Less Wrong论坛上发帖，揭露了OpenAI对FrontierMath项目的资助以及其对测试题库的访问权限。随后，FrontierMath的最新研究论文中也有一则脚注，感谢OpenAI在创建基准测试中的支持，进一步证实了这一消息。

作为FrontierMath的开发商，Epoch AI公司副主任兼联合创始人之一Tamay Besiroglu也承认了资助问题。他表示，由于合同限制，他们没有公开透露OpenAI的资助来源以及其对部分数据集的访问权限。

这一举动引发了广泛的批评。许多人认为，Epoch AI在与OpenAI的合作中，未能就OpenAI的参与程度向基准测试的贡献者，尤其是数学家们，进行充分的透明沟通。这种透明度的缺失，使得OpenAI在FrontierMath测试中的成绩，难以令人信服。

除了透明度问题，OpenAI对FrontierMath测试题库的访问权限，也引发了人们对公平性的担忧。虽然Epoch AI声称，他们使用了一个“OpenAI未见过的保留数据集”来验证模型的能力，但OpenAI对大部分测试题库的访问，仍然引发了人们对模型“作弊”的质疑。

尽管Epoch AI强调，双方有口头协议，这些材料不会被用于模型训练，但许多人认为，这种口头协议缺乏足够的约束力，难以保证OpenAI不会利用这些数据来提升其模型性能。

这场风波不仅引发了人们对OpenAI和Epoch AI的质疑，也引发了人们对AI研究伦理的深刻反思。在AI研究中，透明度、公平性和数据安全是至关重要的。任何违反这些原则的行为，都可能损害AI研究的公信力，并对AI技术的健康发展产生负面影响。

AI治理与安全研究所执行主任米哈伊尔·萨明对此在社交平台上批评道：“OpenAI一贯有误导行为——从欺骗自己董事会，到要求前员工签署保密协议，现在测试造假似乎也不算什么令人惊讶的事”。

面对质疑，Epoch AI的Tamay Besiroglu发表声明，承认在与OpenAI的合作中存在沟通和透明度方面的失误，并承诺未来将改进。他承认，他们应该在与OpenAI的谈判中更强硬地争取尽早向贡献者披露合作信息的权利。

Tamay还表示，即使受到合同限制，他们也应该将与贡献者的透明度作为与OpenAI达成协议的不可协商的一部分。他同时强调，OpenAI完全支持Epoch AI维护一个单独的、未被看到的保留集，作为防止过拟合和确保准确衡量模型进步的额外保障。

OpenAI与Epoch AI的合作风波，再次提醒我们，在追求AI技术进步的同时，必须坚守伦理底线，确保AI研究的透明度和公平性。这场风波也警示我们，AI模型的评估不能只看数字，更要关注其背后的过程和方法。

我们期待着AI研究机构能够吸取教训，加强自我约束，建立更加完善的伦理规范，共同推动AI技术的健康发展。只有这样，AI才能真正为人类社会带来福祉，而不是成为新的伦理挑战。