最近,一则关于 OpenAI o3 智商高达 157 的消息在网上引发热议。这个数据出自 Reddit 论坛的一张帖子,并附带了一张图表,显示 o3 的智商水平远超其他 AI 模型,甚至高于绝大多数人类。然而,这一说法很快遭到了网友的质疑。
o3 的“高智商”从何而来?
据称,OpenAI o3 的智商高达 157,这意味着在人类中,每 13333 个人中才有一个人能达到这个智商水平。该说法源于 Reddit 论坛上的一张图表,其中列出了多个 AI 模型的智商数据:
- o3: 157
- o3 mini: 141
- o1 pro: 139
- o1: 135
- o1 preview: 123
- GPT-4o: 115
这些数据是如何计算出来的呢?据疑似原作者称,他们根据 Codeforces 编码评级来粗略估计 IQ,并假设报名时竞争程序员排名前 15%。
网友质疑:编码能力 ≠ 智商
这一说法迅速引起了网友的广泛关注,但同时也引发了大量的质疑。网友们普遍认为,用编码表现分数来代表智商是毫无意义的。
一位网友直言:“这张图是我见过最愚蠢的东西之一,这些数据根本不能代表智商。他们用编码表现的 z 分数代表智商。但编码不是智商测试,尤其是对于参加编码测试的 LLM 来说,它们对所有在互联网上分享的代码具有完美的数字记忆。o3 甚至无法解答我 6 岁和 8 岁的孩子可以解答的问题。”
也就是说,如果 LLM 针对编码测试进行训练,那么用编码表现分数代表智商是毫无意义的。因为 LLM 可以通过记忆大量的代码片段来获得高分,但这并不意味着它具有真正的智力。
另一些网友则认为:
- IQ 测试是评估人类的指标: IQ 测试评估与智力相关的特定技能,并理所当然地认为人类应该拥有许多其他特征。而这张图通过考虑人工智能可以擅长的单一指标来假设广义智能,他们甚至没有使用智商测试来得出这个结论,而是根据与智商相关的指标来推断。
- 相关性弱: 有网友指出,这是一种基于相关性的“转换”,但首先相关性有点弱,其次它转化为机器智能的效果尚不明确。也就是说,即使 AI 模型在编码方面表现出色,也不能保证它在其他领域也表现出色。
门萨测试:更可靠的智商评估?
虽然基于编码评级的智商评估饱受争议,但也有人提出了其他角度的看法。有人找到了“Tracking AI”中 o1 在挪威门萨智商测试(Mensa Norway)IQ 测试中的结果(为 133,与上面表格中估计的 135 相差不大),这在一定程度上验证了基于编码评估的智商的可靠性。
门萨测试是公认的智商测试,其结果更具参考价值。因此,未来 o3 正式发布后,其在门萨测试中的表现将更值得期待。
结论
“o3 智商高达 157” 的说法引发了人们对 AI 智商评估的思考。尽管 AI 模型在某些领域(如编码)表现出色,但这并不意味着它们具有与人类相同的智力。用单一指标来评估 AI 的智力水平是不科学的,也是片面的。
AI 智商的评估是一个复杂的问题,需要更全面的测试和评估标准。在 AI 技术快速发展的今天,我们需要理性看待 AI 的能力,既不要过分夸大,也不要妄自菲薄。
厌倦了千篇一律的体验?想探索更智能、更个性的AI世界吗?chatTools:https://chat.chattools.cn为你打造专属的AI体验空间,这里汇聚了o1推理模型、GPT4o、Claude和Gemini等多种AI模型,让你在趣味互动中发现科技的奥秘,解锁无限惊喜。