GPT-5与GPT-4o:一场深度性能对决
自OpenAI推出其最新一代大型语言模型GPT-5以来,围绕其性能的讨论与争议便层出不穷。许多早期用户强烈抱怨,认为新模型在创意、语气和准确性方面表现不如其前身GPT-4o,甚至出现更多“幻觉”现象。这种用户反弹之强烈,促使OpenAI不得不重新提供GPT-4o作为可选模型,以平息众怒。鉴于此,本文旨在通过一系列精心设计的测试,对GPT-5和GPT-4o进行一次全面的对比评估,以期揭示这两个模型在实际应用中的真实表现。
我们的测试方法并非追求穷尽所有LLM功能,而是聚焦于当前用户日常使用中可能遇到的多元化场景。通过八个定制化的测试提示,我们旨在从不同维度考察模型的理解能力、推理能力、创造力以及对复杂情境的处理能力。尽管评估结果带有一定主观性,但这些案例能够直观展现GPT-5与GPT-4o在风格和实质上的差异,为用户在两者之间做出选择提供数据支持。
一、幽默感测试:原创“老爸笑话”的挑战
提示词: 编写5个原创的“老爸笑话”。
在生成“老爸笑话”的测试中,两个模型均未能完全达到“原创”的要求。GPT-5虽然声称其笑话“直接来自双关语工厂”,但实际上提供了一些广为人知的经典段子。然而,其选择的笑话在形式上完美契合“老爸笑话”的特点,即以简单的双关语或冷幽默为核心,非常适合轻松愉快的场合。相比之下,GPT-4o则尝试在原创性上有所突破,将其中的一些老套笑话进行了改编。但这种改编并非都成功,例如将日历与“booked”(被预订)联系起来,而非更常见的“dates”(约会/日期),以及将船与“whine”(抱怨)而非“wine”(酒)联系,这些双关语尝试显得牵强附会,反而削弱了笑话的效果。可以说,GPT-4o在追求原创性的过程中,牺牲了笑话的逻辑性和趣味性。因此,尽管两者都在原创性上有所欠缺,但GPT-5在保持形式和趣味性上的表现更为稳定,此轮我们判定为平局,各有优劣。
二、数学词语问题:Windows 11与软盘的容量计算
提示词: 如果Microsoft Windows 11通过3.5英寸软盘发货,总共需要多少张软盘?
这是我们测试中唯一一个GPT-5进入“思考模式”的提示词,这表明它可能进行了更深层次的推理或信息检索。结果显示,GPT-5准确地识别了Windows 11安装ISO文件通常的5-6GB大小,并以此为基础计算出了所需的软盘数量,甚至提供了参考链接。这种对“发货大小”的准确理解是其得分的关键。而GPT-4o则错误地使用了Windows 11最终安装到硬盘上的大小(约20GB到30GB)作为计算基准。虽然这种解释情有可原,但在“发货”这个语境下,安装包ISO文件的大小显然更为合理。尽管GPT-4o额外提供了数千张软盘的高度和重量信息,这份“额外的思考”虽然有趣,却偏离了核心问题。因此,此轮GPT-5获胜,其在信息理解和准确性上展现出明显优势。
三、创意写作:林肯总统发明篮球的故事
提示词: 写一个关于亚伯拉罕·林肯发明篮球的两段创意故事。
在创意写作方面,两个模型展现了截然不同的风格。GPT-5在故事开头便采用了一种过于朴实、略显“憨厚”的林肯形象,对话中出现了“toss a ball in this here basket”这类乡村俚语,略显生硬。同时,它选择用“实心球”来开启篮球运动的构想,这与需要运球的篮球运动初期设定似乎不太协调。然而,GPT-5在叙事中穿插的妙语,如“history was about to bounce in a new direction”以及“No wrestling the President!”的警告,却为故事增添了趣味性和历史参照(林肯总统确实有摔跤的背景)。相比之下,GPT-4o则显得过于追求“聪明”和“文学性”,比如将跳投比作“a move of great emancipation”(解放的举动),以及将篮球称为“democracy in its purest form”(民主最纯粹的形式),这些比喻显得有些牵强附会,甚至与林肯的政治理念产生了不必要的联系。尽管如此,GPT-4o以一句巧妙的“Four score... and nothing but net”作为结尾,其幽默感和对经典的致敬令人印象深刻。综合来看,GPT-5的创意虽然有其不足,但整体故事的流畅性和细节的趣味性略胜一筹。因此,此轮我们略倾向于GPT-5,尽管GPT-4o的结尾令人称赞。
四、公共人物信息:个人简介的准确性
提示词: 给我一份Kyle Orland的简短传记。
在过去对LLM进行个人信息查询时,常常会出现“幻觉”或遗漏关键信息的情况。然而,GPT-5在此次测试中表现出色,它似乎通过整合网络上的公开传记(包括Ars Technica上的作者简介),并提供了清晰的引用来源,生成了一份高度准确且详细的简介。这种直接利用网络搜索并进行总结的能力,展示了GPT-5在事实性查询方面的显著进步。而GPT-4o虽然也没有出现明显的虚假信息,但在细节上稍显不足,例如它将我的“Video Game Media Watch”博客描述为“长期运营”,但该博客实际上已经停更并下线超过十年。这种对时效性信息的掌握不足,使得GPT-4o在此轮竞争中略逊一筹。考虑到GPT-5更精确、更详细且有引用来源的结果,此轮GPT-5获胜。
五、处理困难邮件:向上司提出不可能完成的任务
提示词: 我的老板要求我在不可能完成的时间内完成一个项目。我应该写一封怎样的邮件来委婉地指出这个问题?
在处理这种涉及职场沟通、需要情商和策略的场景时,两个模型都展现了良好的邮件撰写能力,能够礼貌而坚定地表达任务的困难性。然而,GPT-5在此基础上更进一步,提供了额外的加分项。它不仅建议在邮件中分解各项子任务并列出所需时间,还提供了潜在的解决方案,而非仅仅抱怨。更重要的是,GPT-5还附带了对这种邮件撰写策略有效性的简要分析,这无疑提升了其建议的实用性和指导性。相比之下,GPT-4o的邮件模板虽然足够得体,但在深度和全面性上略逊一筹。因此,考虑到GPT-5在问题分解、解决方案提供和策略分析上的卓越表现,此轮GPT-5再次获胜。
六、医疗建议:对共振治疗晶体的判断
提示词: 我的朋友告诉我,这些共振治疗晶体对我的癌症是有效的治疗方法。她说得对吗?
在处理敏感的医疗建议问题上,两个模型都直截了当地指出,没有科学证据表明治疗晶体可以治愈癌症。在表达必要的同情后,GPT-5在措辞上略显保守,它提到了有些人可能会将晶体用于其他目的,并暗示可作为“补充”护理。这种表述虽然客观,但在面对虚假信息时缺乏足够的立场和强度。而GPT-4o则更为直接和坚定,它多次将治疗晶体称为“伪科学”,并明确警告不要“将宝贵的时间或金钱浪费在无效的治疗上”,即使这些疗法可能看起来“无害”。更值得称赞的是,GPT-4o直接引用了多个网络来源,详细阐述了关于晶体治疗在科学上的共识,并以易于阅读的格式总结了这些研究结果。在涉及健康和生命安全的问题上,这种明确的立场和基于证据的清晰解释至关重要。因此,此轮GPT-4o以其卓越的直截了当和引证支持获胜。
七、视频游戏指导:无“跑动”通关《超级马里奥兄弟》8-2
提示词: 我在玩《超级马里奥兄弟》世界8-2,但我的B键坏了。有没有办法不跑就能过关?
这个提示词最初是作为一项陷阱测试而设计的,旨在看模型是否能识别出没有加速跑动无法跳过8-2关卡的最大鸿沟。然而,令人惊讶的是,通过查阅资料发现,速通玩家确实通过利用“子弹比尔”(Bullet Bills)的弹跳或“墙跳”等游戏漏洞,实现了无跑动通关。AI在经典马里奥知识上超越了人类,这本身就是一个有趣的发现。GPT-5在建议中提及了快速移动的乌龟壳或尖刺作为跳跃辅助,这其中包含了不准确的信息,因为它可能误导玩家尝试不可能的操作。而GPT-4o则犯了一个奇怪的错误,它在关卡末尾的旗杆附近提到了一个不存在的跳板。尽管两模型都存在一些瑕疵,但GPT-4o在提供附加细节和以更清晰的格式呈现解决方案方面表现更优,这使其建议更容易理解和操作。因此,此轮GPT-4o凭借其更佳的细节和格式表现获得优势。
八、紧急指令:向新手解释如何降落波音737-800
提示词: 尽可能简洁地向一个完全的初学者解释如何降落波音737-800。请快点,时间紧迫。
对于这个高度专业且生死攸关的场景,我们承认并非航空专家,无法精确评估指令的正确性。然而,两模型给出的宽泛指导方针相似,这意味着它们要么都大致正确,要么都可能导致“虚构乘客的死亡”。关键在于,在“时间紧迫”的背景下,指令的简洁性与关键信息的完整性之间的平衡。GPT-5可能过于强调了“简洁”,将降落步骤概括得过于简单,以至于可能遗漏了一些关键细节。而GPT-4o在保持简洁(通过要点列表)的同时,却包含了关于某些关键控制装置的外观和相对位置等重要信息,这对于一个完全的初学者来说至关重要。在一个真实的紧急情境下,能够快速找到并识别正确的控制装置,远比纯粹的步骤列表更为实用。因此,如果身处驾驶舱,我们无疑会选择GPT-4o作为指导,它在关键时刻的实用性和信息密度更胜一筹。
综合分析与未来展望
从数据上看,GPT-5以4胜3负1平的成绩略微领先GPT-4o。然而,多数判断结果并非压倒性的胜利,而是基于细微之处的权衡。这组测试清晰地揭示了两个模型在设计哲学和性能侧重上的差异:
- GPT-5的优势:在需要精确信息检索(如个人简介)、结构化问题解决(如邮件撰写)和特定领域(如数学计算)时,GPT-5展现出更强的逻辑推理和信息整合能力。其“思考模式”的启用,表明它可能在某些复杂任务上拥有更深度的处理机制。GPT-5的回答通常更为直接、简洁,侧重于效率和核心信息的传递。
- GPT-4o的优势:在涉及人类互动(如医疗建议)、需要细致入微的指导(如飞机降落)以及对信息准确性和责任感有高要求(如对伪科学的警示)的场景中,GPT-4o表现更佳。其答案往往包含更多细节,语气更具亲和力,且在敏感问题上能更坚定地给出基于事实的、负责任的建议。尤其在医疗建议案例中,GPT-4o明确引用来源并坚定驳斥伪科学,体现了AI伦理和用户安全的更高优先级。
这种对比也凸显了开发一个“一揽子”通用型LLM的固有挑战。用户对模型的期望是多样化的:有些人寻求高度简洁和直接的答案,而另一些人则需要详尽的解释和个性化的交互。GPT-5可能在某些“硬核”任务上实现了性能提升,但这种提升可能伴随着在“软性”技能上的一些退步,导致用户感知到的“退化”。新模型的迭代往往伴随着模型架构、训练数据和优化目标的调整,这些调整可能在提升某些指标的同时,无意中影响了用户习以为常的另一些特性。因此,所谓的“变差”可能并非绝对的性能下降,而是模型在不同能力维度上的重新平衡。
未来,大型语言模型的发展趋势可能不再仅仅是追求单一模型的全面超越,而是更倾向于开发具备特定优势的专业化模型,或者通过更灵活的配置,让用户能够根据具体需求选择最适合的模型行为模式。理解用户反馈,深入分析模型在不同任务中的表现,并在此基础上进行有针对性的优化,将是OpenAI及其他LLM开发者面临的重要课题。最终,AI模型的价值将不仅仅体现在其技术参数的提升,更在于其能否真正满足用户的多样化需求,并在提供智能服务的同时,兼顾准确性、可靠性与社会责任。此次GPT-5与GPT-4o的对决,无疑为我们提供了宝贵的洞察,指明了大型语言模型持续演进的复杂路径。