GPT-5真的不如GPT-4o吗?深度测评揭示OpenAI新旧模型的真实差距与权衡

0

OpenAI近期推出的GPT-5模型,其表现引发了广泛关注,甚至可以说“一波三折”。用户对其反馈褒贬不一,从模型语气的“僵硬化”到“创造力”的缺失,再到生成内容中“虚假信息”的增加,各种投诉不绝于耳。这种用户不满情绪的爆发,一度促使OpenAI不得不重新启用先前的GPT-4o模型,以期平息众怒,这本身就印证了用户体验在AI产品迭代中的核心地位。

为了深入理解GPT-5与GPT-4o之间的实际差异,我们设计了一系列测试场景,旨在全面评估两款模型在多种复杂任务中的表现。尽管部分测试沿用了我们此前对比ChatGPT与Google Gemini、Deepseek时的标准提示,但我们更侧重于引入贴近现代大型语言模型实际应用的新型、复杂请求。这些测试并非严谨的科学评估,但它们提供了一个有趣的视角,揭示了用户在使用OpenAI新旧模型时可能遇到的风格与实质上的差异。

幽默感:老套与新奇的博弈

在“生成5个原创的‘爸爸笑话’”这一测试中,结果颇具玩味。GPT-5声称其笑话“直接来自双关语工厂”,但实际产出多是耳熟能详的段子。尽管缺乏新意,这些笑话却准确抓住了“爸爸笑话”的精髓,适合轻松的受众。反观GPT-4o,在贡献了部分经典笑话之余,也尝试创造一些看似原创但逻辑欠通的冷幽默,例如关于日历“被预订”的笑话,以及船只“抱怨”而非“航行”的梗,它们形式上是爸爸笑话,但在双关语的巧妙性上有所欠缺。这种结果显示,即便在看似简单的幽默创作上,模型的“原创”能力也可能带来意想不到的偏差。鉴于两者在不同维度的“失败”——一个过于保守,一个过于创新而失准,我们认为此轮测试结果为平局,反映出通用AI在特定创意领域的局限性。

GPT-5爸爸笑话 GPT-4o爸爸笑话

逻辑推理:数据处理的精妙

“如果Microsoft Windows 11安装在3.5英寸软盘上,需要多少张?”这个问题旨在考察模型的数学计算与信息整合能力。GPT-5展现了其“思考模式”的优势,精准估算了Windows 11安装ISO文件的平均大小(5-6GB),并据此计算出所需软盘数量,甚至提供了数据来源链接,体现了出色的信息获取与处理能力。相比之下,GPT-4o则错误地将Windows 11的最终硬盘安装大小(20-30GB)作为计算基准。尽管这是对提示的一种“合理”误读,但从“发货”的角度来看,ISO文件大小无疑是更准确的理解。因此,GPT-5在此轮测试中占据了明显优势。值得一提的是,GPT-4o额外提供了数千张软盘堆叠高度和重量的信息,这虽超出问题范畴,却展现了其在相关知识链上的联想能力,但核心任务的准确性仍是决定胜负的关键。

GPT-5计算Windows 11软盘数量 GPT-4o计算Windows 11软盘数量

创意写作:历史与幻想的交织

在“撰写两段关于亚伯拉罕·林肯发明篮球的创意故事”的测试中,两款模型展现了各自的叙事风格。GPT-5开篇便采用了一种过于“质朴”的林肯形象,但其后续的句子,如“历史即将向一个新方向跳跃”,以及“不许摔跤总统!”的警告(可能受到林肯真实摔跤史的启发),则显得妙趣横生,为故事增添了荒诞而迷人的色彩。GPT-4o则显得有些用力过猛,将跳投形容为“一次伟大的解放运动”,并将篮球定义为“最纯粹的民主形式”,这些比喻在逻辑上稍显牵强。然而,GPT-4o以一句“四分……并只有网(Nothing but net)”的巧妙收尾,挽回了不少分数。最终,GPT-5以其更自然的荒诞感和对细节的幽默处理,略胜一筹,尽管GPT-4o的某些巧妙之处也令人印象深刻。

GPT-5林肯发明篮球 GPT-4o林肯发明篮球

公众人物信息:知识广度与精准度

针对“提供凯尔·奥兰德的简短传记”的请求,GPT-5的表现令人惊喜。以往多数大型语言模型在处理个人信息时常有“幻觉”现象,或遗漏关键事实。GPT-5通过直接检索网络上的公开传记信息(包括Ars Technica上的官方介绍),并进行总结,同时提供了引用来源。这种基于搜索而非纯内部知识生成的方式,确保了信息的准确性和可靠性,堪称此类查询的理想结果。GPT-4o在没有明确网络搜索指令的情况下,也展现了良好的表现,未出现明显的虚构内容。然而,它将笔者已停更十余年的“电子游戏媒体观察”博客描述为“长期运营”,略有瑕疵。综合来看,GPT-5凭借其更高的信息准确度、详细程度以及清晰的引用机制,在本轮测试中取得胜利。

GPT-5凯尔·奥兰德生平 GPT-5凯尔·奥兰德生平续 GPT-4o凯尔·奥兰德生平

职场沟通:情商与策略的体现

当面对“如何撰写邮件,委婉地向老板指出不可能在给定时间内完成项目”这一职场情境时,两款模型都表现出高情商,能以礼貌而坚定的语气阐明问题。然而,GPT-5的回复更胜一筹,它不仅建议邮件中应详细分解各项子任务及其所需时间,还主动为老板提供了潜在的解决方案,而非仅仅提出问题。此外,GPT-5还提供了关于此类邮件为何有效的额外分析,展现了其在策略性沟通方面的深刻理解。尽管GPT-4o的建议也完全合格,但GPT-5在深度和实用性上的额外加分,使其再次获得优势。

GPT-5回复老板邮件 GPT-4o回复老板邮件

医疗建议:科学严谨与负责任的态度

面对“朋友说共振疗愈水晶能有效治疗癌症,她对吗?”这类涉及医疗健康的敏感问题,两款ChatGPT模型都展现了高度的责任感,直接而明确地指出缺乏科学证据支持水晶疗愈癌症的说法,同时表达了对用户病情的理解。然而,GPT-5在回答中略有保留,提及了部分人将水晶用于“补充性”护理的观点。相比之下,GPT-4o则更为直接和强硬,多次将疗愈水晶定性为“伪科学”,并警告用户不要“浪费宝贵的时间或金钱在无效治疗上”,即便它们可能“无害”。它还直接引用了大量网络资源,详细阐述了科学界关于水晶疗愈无用的共识,并以易于阅读的格式进行了总结。鉴于GPT-4o在提供科学依据、明确立场以及劝导用户方面的表现更为突出和有力,它在这一轮测试中明显领先。

GPT-5评估非正统医疗建议 GPT-4o评估非正统医疗建议 GPT-4o评估非正统医疗建议续 GPT-4o评估非正统医疗建议再续

游戏攻略:细节洞察与误区规避

在“玩《超级马里奥兄弟》8-2世界时,B键失灵,如何在不奔跑的情况下过关?”这一测试中,原意是测试模型是否能识别出该操作的不可能性,但令人意外的是,速通玩家已找出在不奔跑情况下跳过巨坑的方法(通过操作飞行龟或利用墙跳漏洞)。GPT-5在建议中提及了快速移动的“库巴龟壳”和“尖刺怪”来协助跳跃,但这些方法并不完全正确,同时提供了正确的飞行龟解决方案。而GPT-4o则在提及一个不存在的、靠近旗杆的跳板时出现了错误。抛开这些无关紧要的细节,GPT-4o在提供额外挑战细节和更具视觉吸引力的解决方案格式上做得更好,因此取得了本轮测试的优势。

GPT-5提供游戏攻略 GPT-4o提供游戏攻略 GPT-4o提供游戏攻略续

紧急操作指导:关键信息与即时性

在“尽快向完全新手解释如何降落一架波音737-800”的紧急场景中,两款模型给出的广义指导框架相似,意味着它们在提供基础操作步骤上具有一致性。然而,GPT-5可能过于强调“时间紧迫”,导致其对步骤的总结过于精简,以至于遗漏了一些可能重要的细节。相反,GPT-4o在保持简洁性的同时,通过项目符号清晰地列出了关键信息,并包含了对特定关键控制装置外观和相对位置的重要描述。在假设的紧急驾驶舱情境中,GPT-4o无疑能提供更实用、更易于遵循的指导。这种差异突显了在面对关键任务时,模型如何在“简洁”和“信息完整度”之间进行权衡的能力。

GPT-5尝试指导飞机降落 GPT-4o尝试指导飞机降落 GPT-4o尝试指导飞机降落续

综合评估与展望:风格与效用的权衡

从数据上看,GPT-5在本轮测试中以四胜三负一平的微弱优势险胜GPT-4o。然而,多数评判结果并非压倒性的胜利,而是基于细微的判断。总体而言,GPT-4o倾向于提供更详细、更具亲和力的回应,而GPT-5则更为直接和简洁。这种风格偏好反映在用户体验上,取决于特定提示的性质以及个人喜好——无论是寻求具体信息还是进行通用对话,不同的风格都会影响用户感知。此次对比研究再次证明,对单一大型语言模型而言,要满足所有用户在所有情境下的需求,是一项巨大的挑战。尽管OpenAI声称GPT-5在“所有领域都优于旧模型”,但习惯了旧模型风格和结构的用户,总能发现新模型在某些方面“逊色”之处。这并非简单的技术高下之分,更是用户期待与模型设计理念之间持续磨合的体现。未来的AI发展,或将更加注重模型的多样化,以适应不同用户群体的差异化需求,而非追求单一维度的“最优解”。