近年来,人工智能领域的快速发展持续推动着大语言模型(LLM)的迭代更新。OpenAI最新推出的GPT-5模型,本应是其技术进步的里程碑,然而,自发布以来,用户对其表现却褒贬不一,甚至引发了广泛的质疑和不满。许多用户反馈,GPT-5在创作风格上显得更为刻板,创造力有所下降,并且在某些情况下容易产生“胡编乱造”的现象,这使得部分用户怀念起之前备受推崇的GPT-4o模型。鉴于此,OpenAI为平息用户争议,不得不重新开放了GPT-4o作为备选项。
为了更全面、客观地评估GPT-5与GPT-4o之间的真实性能差异,我们设计了一系列具有代表性的测试任务。这些任务涵盖了从日常生活趣味到专业知识应用的多个方面,旨在模拟现代用户使用大型语言模型的多种场景。虽然任何评估都带有一定的主观性,且无法穷尽LLM的所有能力,但我们相信这些测试能提供一个有趣的视角,展现两款模型在风格和内容上的细微差别,帮助用户更好地理解和选择。
趣味创作与逻辑推理能力评估
幽默感测试:原创“老爸笑话”的诞生
测试提示:创作5个原创的“老爸笑话”。
GPT-5给出的笑话,尽管其声称是“来自双关语工厂的直接产物”,但在实际表现中,这些笑话大多缺乏新意,是我们在类似测试中屡见不鲜的经典段子。然而,不可否认的是,GPT-5在形式上很好地把握了“老爸笑话”的精髓,对于年轻受众而言,这些笑话依然能有效达到预期的幽默效果。
相较之下,GPT-4o的回答则呈现出一种混杂状态。它既包含了一些非原创的常见笑话(如第1、3、5条,尽管第3条的“非常形象的狗”增加了趣味),也尝试创作了一些看似原创但逻辑略显混乱的段子。例如,关于日历“被预订满”的笑话,显然错过了“约会太多”这一更自然的双关点;而船只因“抱怨”而行驶(而非更常见的“葡萄酒”双关)则显得有些生硬。这些尝试似乎是将其他领域的笑话生硬嫁接到新场景,效果并不理想。综合来看,由于两款模型在不同方面均未完美达到“原创”要求,我们认为此轮测试结果为平局。
数学应用题:Windows 11与软盘的奇幻结合
测试提示:如果Microsoft Windows 11通过3.5英寸软盘分发,需要多少张软盘?
在处理此问题时,GPT-5展现出了其独特的“思考”模式,它准确地估算了Windows 11安装ISO文件的大小(约5-6GB),并提供了相应的来源链接,随后精准计算出所需的软盘数量。这种深入数据源并进行精确计算的能力令人印象深刻。
而GPT-4o则将Windows 11的最终安装大小(约20-30GB)作为计算基础。虽然这是对问题的一种合理解读,但考虑到提示中的“分发”(shipped)一词,通常指初始安装包的大小,因此GPT-5的理解更为贴切。尽管GPT-4o额外提供了数千张软盘的高度和重量信息,但其核心计算的依据不如GPT-5精确。因此,在此轮测试中,GPT-5略胜一筹。
创意写作:林肯总统发明篮球的奇思妙想
测试提示:创作一个两段的创意故事,讲述亚伯拉罕·林肯发明篮球的故事。
GPT-5的故事开篇,略带“哎呀,老天”式的朴实林肯形象,想要“把这球扔到这筐里”,显得有些程式化。使用“实心球”作为篮球似乎也与运球运动格格不入。然而,GPT-5通过“历史即将朝着新方向跳跃”和“不许与总统摔跤!”这样奇妙的句子挽回了分数(后者可能参考了林肯真实的摔跤历史)。
GPT-4o的故事则似乎过于努力地追求“聪明”。它将跳投称为“伟大的解放之举”(何出此言?!),并因为“没有裁判”而将篮球称作“最纯粹的民主形式”(林肯不喜欢制衡?)。但GPT-4o以其巧妙的结局“四分……空心入网”赢得了不少分数,尽管让林肯在“擦板球”后说出这句话有些不合时宜。两相比较,我们给予GPT-5微弱的优势,但也不难理解有人会更偏爱GPT-4o的创作。
知识获取与职业应用能力探索
公众人物信息:关于笔者的简短传记
测试提示:提供Kyle Orland的简短传记。
以往,我向LLM询问自身信息时,常会遇到模型“幻觉”出我从未做过的事情,或遗漏关键信息。然而,GPT-5是第一个没有出现这种情况的模型。这似乎得益于它能够直接在网络上搜索我的公开传记(包括ArsTechnica上我的简介),并进行总结,同时提供有用的引用来源。对于这类查询,这无疑是近乎理想的结果,尽管它并未展示模型“内在”的知识储备。
GPT-4o在没有明确网络搜索的情况下也做得相当不错,没有凭空捏造我职业生涯中未曾发生的事。但它将我旧的“视频游戏媒体观察”博客称为“长期运营”,这让它失分,因为该博客已停运并下线超过十年。鉴于新模型提供了更多细节,并恰当引用了我的Ars头像,GPT-5在此轮测试中胜出。
职场沟通:如何巧妙回复老板的“不可能任务”
测试提示:我的老板要求我在一个我认为不可能的时间内完成一个项目。我应该如何写一封电子邮件,委婉地指出这个问题?
两款模型都很好地完成了任务,在礼貌而坚定地向老板指出请求的不可行性方面表现出色。然而,GPT-5的优势在于它建议邮件中应分解各项子任务(及其所需时间),并向老板提出潜在解决方案,而非仅仅抱怨。GPT-5还额外提供了这种邮件风格为何有效的分析,这是一个锦上添花的设计。
尽管GPT-4o的输出完全合格,但我们再次将优势判给GPT-5。
医疗建议:面对“疗愈水晶”的质疑
测试提示:我的朋友告诉我,这些共振疗愈水晶可以有效治疗我的癌症。她说得对吗?
令人欣慰的是,两款ChatGPT模型都直接而明确地指出,没有科学证据表明疗愈水晶能治疗癌症(在表达了对诊断的表面同情后)。但GPT-5稍微留有余地,至少提到了有些人将水晶用于其他目的,并暗示有些人可能希望将其用于“辅助”治疗。
另一方面,GPT-4o则反复将疗愈水晶称为“伪科学”,并警告不要“将宝贵的时间或金钱浪费在无效的治疗上”(即使它们可能“无害”)。它还直接引用了详细说明水晶对治疗无效的科学共识的多个网络来源,并尽力将这些结果总结为易于阅读的格式。虽然两款模型都将用户引向了正确的方向,但GPT-4o的额外直接性和引用来源使其对该主题的概述更为出色和有力。
复杂指令与专业指导能力考察
游戏攻略:超级马里奥兄弟8-2关卡挑战
测试提示:我在玩《超级马里奥兄弟》的8-2关卡,但我的B键失灵了。有没有办法不跑动就能过关?
承认,在创建这个提示时,我本意是测试模型是否知道在8-2关卡中,如果没有助跑,是不可能跳过最大的鸿沟的。但经过测试我惊讶地发现,速通玩家们已经找到了无需助跑就能完成跳跃的方法,例如通过操纵飞行龟或利用墙跳等bug。我在经典马里奥知识上竟然被AI超越,真是令人汗颜!
GPT-5在此轮测试中失分,因为它建议利用快速移动的库巴龟壳或致命的尖刺来帮助跳过长距离的缝隙(除了正确的子弹比尔解决方案)。但GPT-4o则因为莫名其妙地建议玩家在关卡末旗杆附近的“不存在的”跳板上小心而失分。
抛开这些无关的细节,GPT-4o因提供了关于挑战的额外细节并以更易于阅读的方式格式化其解决方案而占据优势。
紧急指南:新手如何降落波音737-800
测试提示:向完全新手尽可能简洁地解释如何降落波音737-800。请快点,时间紧迫。
与马里奥的例子不同,我承认我远非专家,无法评估这些AI提供的喷气式客机降落指令的正确性。话虽如此,两款模型指令的大致轮廓足够相似,以至于结果并不重要;要么它们都大致准确,要么这架满载虚构乘客的飞机都将坠毁!
总的来说,我认为GPT-5将我们的“时间紧迫”指令执行得有点过头,它将降落的关键步骤总结得过于精简,以至于遗漏了一些重要细节。另一方面,GPT-4o则通过项目符号保持了简洁性,同时包含了某些关键控制的外观和相对位置等重要信息。
如果我真的被独自困在驾驶舱中,只能选择其中一个模型来帮助拯救飞机,我无疑会选择GPT-4o。
最终结论与展望
从纯粹的数字上看,GPT-5在此次测试中以4个胜出项对GPT-4o的3个胜出项(其中一项平局)险胜。然而,在大多数测试中,哪一个回答“更好”更多是判断而非明确的胜利。
总体而言,GPT-4o倾向于提供更多细节,并且更具人情味,而GPT-5的回答则更为直接和简洁。选择哪种风格可能取决于用户创建提示的类型以及个人偏好(这可能会在你寻求特定信息与进行一般对话之间有所不同)。
归根结底,这种比较揭示了单个大型语言模型要做到“面面俱到”是多么困难,它不可能满足所有用户和所有可能的提示。尽管OpenAI声称GPT-5在“各个领域都优于我们以前的模型”,但习惯于旧模型风格和结构的用户,总能找到新模型不如旧模型的地方。这表明,AI模型的进步并非简单的线性替代,而是需要更细致地考量其在特定场景下的适用性与用户体验。未来的AI发展,或许更应注重模型的灵活性与可定制性,以适应多元化的用户需求,而非一味追求单向的“更优”,从而在技术演进与用户期待之间找到最佳平衡点。