o3 智商高达157? 网友质疑:编码分数不能代表智商

28

最近,一则关于 OpenAI o3 智商高达 157 的消息在网上引发热议。这个数据出自 Reddit 论坛的一张帖子,并附带了一张图表,显示 o3 的智商水平远超其他 AI 模型,甚至高于绝大多数人类。然而,这一说法很快遭到了网友的质疑。

o3 智商高达157

 o3 的“高智商”

o3 的“高智商”从何而来?

据称,OpenAI o3 的智商高达 157,这意味着在人类中,每 13333 个人中才有一个人能达到这个智商水平。该说法源于 Reddit 论坛上的一张图表,其中列出了多个 AI 模型的智商数据:

  • o3: 157
  • o3 mini: 141
  • o1 pro: 139
  • o1: 135
  • o1 preview: 123
  • GPT-4o: 115

这些数据是如何计算出来的呢?据疑似原作者称,他们根据 Codeforces 编码评级来粗略估计 IQ,并假设报名时竞争程序员排名前 15%。

网友质疑:编码能力 ≠ 智商

网友质疑:编码能力 ≠ 智商

这一说法迅速引起了网友的广泛关注,但同时也引发了大量的质疑。网友们普遍认为,用编码表现分数来代表智商是毫无意义的

一位网友直言:“这张图是我见过最愚蠢的东西之一,这些数据根本不能代表智商。他们用编码表现的 z 分数代表智商。但编码不是智商测试,尤其是对于参加编码测试的 LLM 来说,它们对所有在互联网上分享的代码具有完美的数字记忆。o3 甚至无法解答我 6 岁和 8 岁的孩子可以解答的问题。”

也就是说,如果 LLM 针对编码测试进行训练,那么用编码表现分数代表智商是毫无意义的。因为 LLM 可以通过记忆大量的代码片段来获得高分,但这并不意味着它具有真正的智力。

另一些网友则认为:

  • IQ 测试是评估人类的指标: IQ 测试评估与智力相关的特定技能,并理所当然地认为人类应该拥有许多其他特征。而这张图通过考虑人工智能可以擅长的单一指标来假设广义智能,他们甚至没有使用智商测试来得出这个结论,而是根据与智商相关的指标来推断。
  • 相关性弱: 有网友指出,这是一种基于相关性的“转换”,但首先相关性有点弱,其次它转化为机器智能的效果尚不明确。也就是说,即使 AI 模型在编码方面表现出色,也不能保证它在其他领域也表现出色。

门萨测试:更可靠的智商评估?

虽然基于编码评级的智商评估饱受争议,但也有人提出了其他角度的看法。有人找到了“Tracking AI”中 o1 在挪威门萨智商测试(Mensa Norway)IQ 测试中的结果(为 133,与上面表格中估计的 135 相差不大),这在一定程度上验证了基于编码评估的智商的可靠性。

门萨测试是公认的智商测试,其结果更具参考价值。因此,未来 o3 正式发布后,其在门萨测试中的表现将更值得期待。

结论

“o3 智商高达 157” 的说法引发了人们对 AI 智商评估的思考。尽管 AI 模型在某些领域(如编码)表现出色,但这并不意味着它们具有与人类相同的智力。用单一指标来评估 AI 的智力水平是不科学的,也是片面的。

AI 智商的评估是一个复杂的问题,需要更全面的测试和评估标准。在 AI 技术快速发展的今天,我们需要理性看待 AI 的能力,既不要过分夸大,也不要妄自菲薄。

chatTools

厌倦了千篇一律的体验?想探索更智能、更个性的AI世界吗?chatTools:https://chat.chattools.cn为你打造专属的AI体验空间,这里汇聚了o1推理模型、GPT4o、Claude和Gemini等多种AI模型,让你在趣味互动中发现科技的奥秘,解锁无限惊喜。