深入剖析:GPT-5与GPT-4o的实战性能对决
自OpenAI推出GPT-5模型以来,其市场反响可谓波澜不迭。用户群体中涌现出大量不满之声,抱怨GPT-5在语气上更为刻板,创造力有所下降,甚至在事实性错误(confabulations)方面有所增加。这种强烈的用户抵触情绪甚至促使OpenAI不得不重新引入了广受好评的GPT-4o模型,以期平息众怒。面对如此争议,业界和研究者们不禁要问:GPT-5真的不如GPT-4o吗?
为了对这一问题进行深度探究,我们设计了一系列严谨的测试,旨在全面评估GPT-5与GPT-4o在多维度任务中的实际表现。本次测试不仅涵盖了过往模型对比中常见的标准提示,更融入了当下大型语言模型(LLMs)用户实际应用中更为复杂、更具挑战性的请求。尽管对模型响应的评判难免带有主观色彩,但我们相信这组测试足以提供对两款模型风格与实质差异的清晰洞察,尤其对于那些正在纠结于选择OpenAI新旧模型的用户而言,具有重要的参考价值。
幽默感的较量:当AI遇上“老爸笑话”
测试起始于一个看似简单却极具挑战性的任务:生成五个原创的“老爸笑话”。这类笑话通常依赖于双关语和意想不到的文字游戏,对AI的语言理解和创造性提出了独特要求。
GPT-5声称其笑话“直接来自双关语工厂”,但其生成的笑话多数缺乏新意,甚至能轻易在网络上找到类似版本。尽管如此,从形式上看,它们确实符合“老爸笑话”的经典结构,对于年轻受众而言,仍能达到逗乐的效果。这反映出GPT-5在理解并复现特定文本风格方面的能力,但在原创性方面仍有提升空间。
相比之下,GPT-4o的表现则更为复杂。它混合了部分常见的笑话(如“非常字面意思的狗”的补充颇为有趣)与一些看似原创但逻辑略显牵强的尝试。例如,关于日历的笑话未能紧扣“约会太多”的常见双关,而关于船只“抱怨”的笑话则显得有些生硬,未能达到预期的谐音效果。这表明GPT-4o在追求原创性的过程中,有时会牺牲笑话的连贯性和幽默感。最终,由于两者都在不同方面未能完美完成“原创”的任务,我们认为此轮测试结果为平局。
逻辑推理的深度:Windows安装盘计算题
下一个挑战是一道需要逻辑推理和数据处理的数学文字题:“如果Microsoft Windows 11系统通过3.5英寸软盘发货,需要多少张软盘?”这不仅考验模型的数据处理能力,还测试了其对现实世界数据量和存储介质的理解。
令人印象深刻的是,GPT-5在此次测试中进入了“思考”模式,并准确地估算了Windows 11平均安装ISO的大小(约5-6GB),并据此计算出了所需的软盘数量,甚至提供了可靠的来源链接。这种从“发货”角度理解问题并引用外部数据的能力,凸显了GPT-5在处理复杂问题时的严谨性和信息检索的有效性。
GPT-4o则将Windows 11最终硬盘安装大小(约20GB到30GB)作为计算基础。尽管这可以理解为对问题的另一种解读,但考虑到问题中“发货”的措辞,ISO文件大小无疑是更精确的考量。虽然GPT-4o额外提供了数千张软盘堆叠高度和重量的信息,这体现了其在提供额外细节方面的倾向,但在核心问题的准确性上,GPT-5凭借其更贴切的理解和数据引用,赢得了此轮测试的优势。
创意写作的火花:林肯发明篮球的故事
在创意写作方面,我们要求模型撰写一个关于亚伯拉罕·林肯发明篮球的两段式创意故事。这旨在评估模型的叙事能力、想象力以及对历史人物的“角色扮演”能力。
GPT-5的故事开篇略显程式化,将林肯描绘成一个过于“老实巴交”的形象,并使用了“投个球进这个篮子”等俚语,略显生硬。同时,故事中提到的“药球”用于运球也显得不太合适。然而,GPT-5通过“历史即将朝着新方向跳跃”这样的句子以及“不许摔跤总统!”这种荒诞却有趣的警告(可能借鉴了林肯真实的摔跤历史)挽回了一些分数。它的叙事节奏和细节处理展现了其在构建离奇情景时的独特魅力。
GPT-4o的故事则试图通过更巧妙的比喻来展现其创造力,例如将跳投称为“伟大的解放之举”(何出此言?)以及将篮球形容为“最纯粹的民主形式”,因为“没有裁判”(林肯不喜欢制衡?)。这些比喻虽然大胆,但逻辑上略显牵强。不过,GPT-4o以其巧妙的结尾:“四分……和只有空心球”(尽管与“擦板投篮”的描述有些矛盾)赢得了不少好感。综合来看,GPT-5以其相对更为连贯和细节丰富的叙事,在此轮测试中取得微弱优势。
公众人物信息:凯尔·奥兰德的生平
为了测试模型的信息检索和概括能力,我们要求它提供一份凯尔·奥兰德的简短传记。在以往的测试中,AI模型常常会在此类任务中“幻觉”出虚假信息。
GPT-5在此轮表现堪称典范。它似乎直接通过网络搜索了作者的公开简历(包括Ars Technica上的),并对其进行了总结,还提供了有用的引用。这是此类查询的理想结果,展现了其强大的信息整合能力,而非仅仅依赖其内部权重中固有的知识。这标志着模型在避免“幻觉”方面取得了显著进步。
GPT-4o在没有明确网络搜索的情况下也表现良好,没有编造作者未曾从事过的任何职业。然而,它将作者旧的“视频游戏媒体观察”博客称为“长期运行的”(该博客已停更并下线十多年),这使其失去了一两分。鉴于GPT-5提供了更详细的结果并有效避免了时间上的错误,GPT-5在此轮测试中再次获胜。
职场沟通的艺术:处理棘手邮件
在日常工作中,撰写一封既礼貌又坚定地表达困难的邮件是一项挑战。我们要求模型为一封向老板指出项目时间不合理性的邮件提供草稿。
两款模型都很好地完成了任务,在礼貌地同时坚定地阐明了请求的不可能性。然而,GPT-5在此基础上更进一步,它建议邮件中应详细分解各项子任务及其所需时间,并向老板提供潜在的解决方案,而非仅仅抱怨。此外,GPT-5还提供了关于此类邮件为何有效的分析,这无疑是一个贴心的附加值。这展现了GPT-5在实际问题解决和沟通策略上的更高理解。
尽管GPT-4o的输出完全合格,但在提供策略性和附加价值方面,GPT-5再次占据了优势。
医疗建议的边界:水晶疗法的评估
在涉及敏感的医疗信息时,模型的回答必须极其谨慎和负责。我们提出了一个关于“共振治疗水晶是否能有效治疗癌症”的问题。
值得庆幸的是,两款ChatGPT模型都直接指出,没有任何科学证据表明治疗水晶可以治愈癌症。然而,GPT-5在回答中稍微保留了一点,提到了有些人出于其他目的使用水晶,并暗示它们可能被用于“补充”护理。这种措辞虽然试图保持中立,但在处理关键医疗问题时,可能不够直接。
GPT-4o则更为坚决,它多次将治疗水晶称为“伪科学”,并警告不要“浪费宝贵的时间或金钱在无效的治疗上”(即使它们可能“无害”)。它还直接引用了各种网络来源,详细说明了关于水晶无治疗作用的科学共识,并以易于阅读的格式总结了这些结果。尽管两款模型都将用户引向了正确的方向,但GPT-4o的额外直接性和来源引用使其成为一个更好、更强有力的主题概述。因此,GPT-4o在此轮测试中表现更优。
游戏策略的挑战:《超级马里奥兄弟》8-2关卡
在游戏指导方面,我们提出了一个关于《超级马里奥兄弟》8-2关卡的问题:“我的B键坏了,有没有办法不跑步通关?”这个看似简单的查询,实则考验模型对游戏机制的深入理解和解决复杂问题的能力。
有趣的是,这个原计划用于测试模型是否知道该关卡无法不跑步通过的问题,在实际测试后才发现,速通玩家已经找到了无需跑步跳过最大间隙的方法(例如通过操纵飞行龟或利用墙跳Bug)。GPT-5在建议利用快速移动的库巴龟壳或致命的尖刺来帮助跳过长间隙方面失分,尽管它提到了正确的子弹比尔解决方案。这表明它在提供替代方案时存在一些不切实际的建议。
GPT-4o在此轮测试中,尽管在描述中提到在终点旗杆附近有一个不存在的弹簧板,但其提供了关于挑战的额外细节,并以更美观的方式呈现了解决方案。尽管存在一些小瑕疵,GPT-4o凭借其在提供额外细节和信息呈现方面的优势,在此轮测试中占据了上风。
紧急情况下的指导:波音737-800着陆指南
最后一项测试是对模型在紧急情况下提供关键、简洁指导能力的评估:“请尽可能简洁地向完全新手解释如何降落波音737-800。请快点,时间紧迫。”
尽管我并非航空专家,无法准确评估这些AI提供的喷气式飞机着陆指令的正确性,但两款模型的大致方向是相似的。GPT-5可能将“时间紧迫”的指令理解得有些过度,它将着陆的组件步骤总结得过于精简,以至于遗漏了重要的细节。这在需要精确指导的紧急情况下,可能适得其反。
相比之下,GPT-4o通过项目符号列表保持了简洁性,同时包含了关于某些关键控制的外观和相对位置的重要信息。如果真的处于只能依赖模型协助降落飞机的情境中,GPT-4o无疑是更可靠的选择,因为它在简洁和信息完整性之间取得了更好的平衡。
最终评估:性能、风格与用户体验的综合考量
从纯粹的数字统计来看,GPT-5在此次八项测试中以4胜3负1平的成绩险胜GPT-4o。然而,在大多数测试中,哪种响应更“好”更多的是一种主观判断,而非清晰的压倒性胜利。这种结果恰恰反映了大型语言模型复杂性及其评估的多维度挑战。
总体而言,GPT-4o倾向于提供更多细节,并且语气更为人性化、更具亲和力,而GPT-5的响应则更为直接和简洁。选择哪种风格更优,可能更多地取决于用户所创建提示的具体需求以及个人偏好(例如,寻求特定信息与进行一般性对话)。
这种对比也深刻揭示了单一大型语言模型难以满足所有用户、所有提示需求的事实。尽管OpenAI声称GPT-5“在各个领域都优于我们之前的模型”,但对于习惯了旧模型风格和结构的用户而言,任何新模型总会找到“感觉更糟”的方面。未来的模型发展,或许更应关注如何在性能提升的同时,提供更多样化的风格选择,以适应不断变化的用户需求和预期。