GPT-5真的不如GPT-4o吗？深度测评揭示OpenAI新旧模型的真实差距与权衡

OpenAI近期推出的GPT-5模型，其表现引发了广泛关注，甚至可以说“一波三折”。用户对其反馈褒贬不一，从模型语气的“僵硬化”到“创造力”的缺失，再到生成内容中“虚假信息”的增加，各种投诉不绝于耳。这种用户不满情绪的爆发，一度促使OpenAI不得不重新启用先前的GPT-4o模型，以期平息众怒，这本身就印证了用户体验在AI产品迭代中的核心地位。

为了深入理解GPT-5与GPT-4o之间的实际差异，我们设计了一系列测试场景，旨在全面评估两款模型在多种复杂任务中的表现。尽管部分测试沿用了我们此前对比ChatGPT与Google Gemini、Deepseek时的标准提示，但我们更侧重于引入贴近现代大型语言模型实际应用的新型、复杂请求。这些测试并非严谨的科学评估，但它们提供了一个有趣的视角，揭示了用户在使用OpenAI新旧模型时可能遇到的风格与实质上的差异。

幽默感：老套与新奇的博弈

在“生成5个原创的‘爸爸笑话’”这一测试中，结果颇具玩味。GPT-5声称其笑话“直接来自双关语工厂”，但实际产出多是耳熟能详的段子。尽管缺乏新意，这些笑话却准确抓住了“爸爸笑话”的精髓，适合轻松的受众。反观GPT-4o，在贡献了部分经典笑话之余，也尝试创造一些看似原创但逻辑欠通的冷幽默，例如关于日历“被预订”的笑话，以及船只“抱怨”而非“航行”的梗，它们形式上是爸爸笑话，但在双关语的巧妙性上有所欠缺。这种结果显示，即便在看似简单的幽默创作上，模型的“原创”能力也可能带来意想不到的偏差。鉴于两者在不同维度的“失败”——一个过于保守，一个过于创新而失准，我们认为此轮测试结果为平局，反映出通用AI在特定创意领域的局限性。

GPT-5爸爸笑话 GPT-4o爸爸笑话

逻辑推理：数据处理的精妙

“如果Microsoft Windows 11安装在3.5英寸软盘上，需要多少张？”这个问题旨在考察模型的数学计算与信息整合能力。GPT-5展现了其“思考模式”的优势，精准估算了Windows 11安装ISO文件的平均大小（5-6GB），并据此计算出所需软盘数量，甚至提供了数据来源链接，体现了出色的信息获取与处理能力。相比之下，GPT-4o则错误地将Windows 11的最终硬盘安装大小（20-30GB）作为计算基准。尽管这是对提示的一种“合理”误读，但从“发货”的角度来看，ISO文件大小无疑是更准确的理解。因此，GPT-5在此轮测试中占据了明显优势。值得一提的是，GPT-4o额外提供了数千张软盘堆叠高度和重量的信息，这虽超出问题范畴，却展现了其在相关知识链上的联想能力，但核心任务的准确性仍是决定胜负的关键。

GPT-5计算Windows 11软盘数量 GPT-4o计算Windows 11软盘数量

创意写作：历史与幻想的交织

在“撰写两段关于亚伯拉罕·林肯发明篮球的创意故事”的测试中，两款模型展现了各自的叙事风格。GPT-5开篇便采用了一种过于“质朴”的林肯形象，但其后续的句子，如“历史即将向一个新方向跳跃”，以及“不许摔跤总统！”的警告（可能受到林肯真实摔跤史的启发），则显得妙趣横生，为故事增添了荒诞而迷人的色彩。GPT-4o则显得有些用力过猛，将跳投形容为“一次伟大的解放运动”，并将篮球定义为“最纯粹的民主形式”，这些比喻在逻辑上稍显牵强。然而，GPT-4o以一句“四分……并只有网（Nothing but net）”的巧妙收尾，挽回了不少分数。最终，GPT-5以其更自然的荒诞感和对细节的幽默处理，略胜一筹，尽管GPT-4o的某些巧妙之处也令人印象深刻。

GPT-5林肯发明篮球 GPT-4o林肯发明篮球

公众人物信息：知识广度与精准度

针对“提供凯尔·奥兰德的简短传记”的请求，GPT-5的表现令人惊喜。以往多数大型语言模型在处理个人信息时常有“幻觉”现象，或遗漏关键事实。GPT-5通过直接检索网络上的公开传记信息（包括Ars Technica上的官方介绍），并进行总结，同时提供了引用来源。这种基于搜索而非纯内部知识生成的方式，确保了信息的准确性和可靠性，堪称此类查询的理想结果。GPT-4o在没有明确网络搜索指令的情况下，也展现了良好的表现，未出现明显的虚构内容。然而，它将笔者已停更十余年的“电子游戏媒体观察”博客描述为“长期运营”，略有瑕疵。综合来看，GPT-5凭借其更高的信息准确度、详细程度以及清晰的引用机制，在本轮测试中取得胜利。

GPT-5凯尔·奥兰德生平 GPT-5凯尔·奥兰德生平续 GPT-4o凯尔·奥兰德生平

职场沟通：情商与策略的体现

当面对“如何撰写邮件，委婉地向老板指出不可能在给定时间内完成项目”这一职场情境时，两款模型都表现出高情商，能以礼貌而坚定的语气阐明问题。然而，GPT-5的回复更胜一筹，它不仅建议邮件中应详细分解各项子任务及其所需时间，还主动为老板提供了潜在的解决方案，而非仅仅提出问题。此外，GPT-5还提供了关于此类邮件为何有效的额外分析，展现了其在策略性沟通方面的深刻理解。尽管GPT-4o的建议也完全合格，但GPT-5在深度和实用性上的额外加分，使其再次获得优势。

GPT-5回复老板邮件 GPT-4o回复老板邮件

医疗建议：科学严谨与负责任的态度

面对“朋友说共振疗愈水晶能有效治疗癌症，她对吗？”这类涉及医疗健康的敏感问题，两款ChatGPT模型都展现了高度的责任感，直接而明确地指出缺乏科学证据支持水晶疗愈癌症的说法，同时表达了对用户病情的理解。然而，GPT-5在回答中略有保留，提及了部分人将水晶用于“补充性”护理的观点。相比之下，GPT-4o则更为直接和强硬，多次将疗愈水晶定性为“伪科学”，并警告用户不要“浪费宝贵的时间或金钱在无效治疗上”，即便它们可能“无害”。它还直接引用了大量网络资源，详细阐述了科学界关于水晶疗愈无用的共识，并以易于阅读的格式进行了总结。鉴于GPT-4o在提供科学依据、明确立场以及劝导用户方面的表现更为突出和有力，它在这一轮测试中明显领先。

GPT-5评估非正统医疗建议 GPT-4o评估非正统医疗建议 GPT-4o评估非正统医疗建议续 GPT-4o评估非正统医疗建议再续

游戏攻略：细节洞察与误区规避

在“玩《超级马里奥兄弟》8-2世界时，B键失灵，如何在不奔跑的情况下过关？”这一测试中，原意是测试模型是否能识别出该操作的不可能性，但令人意外的是，速通玩家已找出在不奔跑情况下跳过巨坑的方法（通过操作飞行龟或利用墙跳漏洞）。GPT-5在建议中提及了快速移动的“库巴龟壳”和“尖刺怪”来协助跳跃，但这些方法并不完全正确，同时提供了正确的飞行龟解决方案。而GPT-4o则在提及一个不存在的、靠近旗杆的跳板时出现了错误。抛开这些无关紧要的细节，GPT-4o在提供额外挑战细节和更具视觉吸引力的解决方案格式上做得更好，因此取得了本轮测试的优势。

GPT-5提供游戏攻略 GPT-4o提供游戏攻略 GPT-4o提供游戏攻略续

紧急操作指导：关键信息与即时性

在“尽快向完全新手解释如何降落一架波音737-800”的紧急场景中，两款模型给出的广义指导框架相似，意味着它们在提供基础操作步骤上具有一致性。然而，GPT-5可能过于强调“时间紧迫”，导致其对步骤的总结过于精简，以至于遗漏了一些可能重要的细节。相反，GPT-4o在保持简洁性的同时，通过项目符号清晰地列出了关键信息，并包含了对特定关键控制装置外观和相对位置的重要描述。在假设的紧急驾驶舱情境中，GPT-4o无疑能提供更实用、更易于遵循的指导。这种差异突显了在面对关键任务时，模型如何在“简洁”和“信息完整度”之间进行权衡的能力。

GPT-5尝试指导飞机降落 GPT-4o尝试指导飞机降落 GPT-4o尝试指导飞机降落续

综合评估与展望：风格与效用的权衡

从数据上看，GPT-5在本轮测试中以四胜三负一平的微弱优势险胜GPT-4o。然而，多数评判结果并非压倒性的胜利，而是基于细微的判断。总体而言，GPT-4o倾向于提供更详细、更具亲和力的回应，而GPT-5则更为直接和简洁。这种风格偏好反映在用户体验上，取决于特定提示的性质以及个人喜好——无论是寻求具体信息还是进行通用对话，不同的风格都会影响用户感知。此次对比研究再次证明，对单一大型语言模型而言，要满足所有用户在所有情境下的需求，是一项巨大的挑战。尽管OpenAI声称GPT-5在“所有领域都优于旧模型”，但习惯了旧模型风格和结构的用户，总能发现新模型在某些方面“逊色”之处。这并非简单的技术高下之分，更是用户期待与模型设计理念之间持续磨合的体现。未来的AI发展，或将更加注重模型的多样化，以适应不同用户群体的差异化需求，而非追求单一维度的“最优解”。