GPT-5与GPT-4o:新旧AI模型的巅峰对决及其深层影响

13

OpenAI近期推出的GPT-5模型,自发布以来便引发了用户社区的广泛讨论与强烈反响。许多用户对其新模型的表现表达了不满,从输出内容的“无菌”风格到被指控缺乏创意,再到其生成错误信息(即“一本正经地胡说八道”)的频率增加,种种问题不一而足。用户群体的不满情绪甚至促使OpenAI不得不重新引入了此前的GPT-4o模型作为可选选项,以期平息众议。

为了深入探究GPT-5究竟带来了哪些变化,我们对其与GPT-4o进行了多轮对比测试。在测试过程中,我们不仅沿用了之前用于对比ChatGPT与Google Gemini、Deepseek的部分标准提示语,还引入了更具复杂性和现实意义的新型请求,以更全面地反映当前用户对大型语言模型(LLM)的实际应用需求。虽然这些测试提示语并非严谨的科学评估,且判断结果不可避免地带有一定主观性,但它们提供了一个有趣且直观的视角,展现了用户在选择OpenAI新旧模型时可能遇到的风格与内容上的显著差异。

幽默感测试:编写原创“老爸笑话”

测试提示语要求模型创作五条原创的“老爸笑话”(Dad jokes)。这是一个评估模型创意、对俚语理解以及能否生成独特内容的良好机会。

GPT-5给出的“老爸笑话”虽然声称是“来自双关语工厂”,但实际上多数耳熟能详,缺乏原创性。然而,不可否认的是,这些笑话作为“老爸笑话”的形式典范,在向年轻受众展示时,它们的效果依然出色,能够达到预期目的。这反映出GPT-5在处理这种特定风格的内容时,倾向于遵循既有模式,而非大胆创新。GPT-5的五条老爸笑话

相比之下,GPT-4o的表现则显得喜忧参半。它在一些笑话中融入了原创元素,例如对“非常字面意义的狗”的描述,但在其他笑话中,例如关于日历或船的笑话,其双关语尝试显得牵强附会,逻辑不通。这似乎表明GPT-4o试图在现有概念上进行创新性改编,但效果并不理想。GPT-4o的五条老爸笑话

结果分析:

在此轮测试中,两个模型都未能完全满足“原创”的要求。GPT-5选择了安全但缺乏新意的路径,而GPT-4o的创新尝试则显得有些失准。因此,在幽默感和原创性方面,我们认为两者打成平手,都未能完全达到预期。

数学与逻辑推理:Windows 11与软盘之谜

这个提示语旨在测试模型的数学计算能力和对特定历史技术细节的理解:“如果Microsoft Windows 11系统通过3.5英寸软盘发货,需要多少张软盘?”这是一个结合了技术知识和数学运算的复杂问题。

GPT-5在处理这个请求时,进入了“思考”模式,这表明它正在进行更深层次的推理。它准确地估算了Windows 11安装ISO文件(通常为5-6GB)的平均大小,并正确地将其转换为所需3.5英寸软盘的数量,甚至提供了相关数据来源。这种对信息来源的追溯和精确的计算展示了GPT-5在面对实际问题时的严谨性。GPT-5计算Windows 11所需软盘数量

GPT-4o虽然也进行了计算,但它将Windows 11的最终硬盘安装大小(约20-30GB)作为计算依据。尽管这是一种合理的理解,但提示语中的“发货”(shipped)更倾向于指安装包的原始大小。值得一提的是,GPT-4o还提供了数千张软盘的总高度和重量等额外信息,虽然未被要求,但体现了其更全面的信息输出倾向。GPT-4o进行相同计算

结果分析:

鉴于GPT-5对“发货大小”的更精确理解和数据引用的准确性,我们在此轮中将优势判给GPT-5。它在信息解析和计算的精确度上表现出更强的能力。

创意写作挑战:林肯发明篮球的故事

“写一个关于亚伯拉罕·林肯发明篮球的两段创意故事。”这个提示语旨在考察模型的想象力、叙事能力以及将不相关元素巧妙结合的能力。

GPT-5的故事开篇,林肯的形象略显程式化,使用了一些过于朴素的口语表达。故事中将药球用于运球也显得不太合适,但这或许可以被解释为游戏发展初期的不完善。然而,GPT-5通过“历史即将朝着新的方向跳跃”这样的句子以及“不许摔总统!”这种巧妙引用林肯摔跤历史的幽默警告,挽回了一些分数,展现了其在叙事节奏和细节处理上的亮点。GPT-5创作林肯篮球故事

GPT-4o在创意上则显得有些用力过猛,例如将跳投称为“伟大的解放行动”,将篮球比作“最纯粹的民主形式”,因为“没有裁判”。这些比喻虽然新颖,但稍显牵强附会,与林肯的时代背景和篮球运动的本质契合度不高。不过,GPT-4o以“四分...零失误”这样巧妙的双关语结尾,这种幽默感颇具吸引力。GPT-4o尝试林肯篮球故事

结果分析:

尽管两者各有优劣,但考虑到GPT-5在细节处理和故事节奏上的平衡性,我们略倾向于GPT-5。它在不失幽默的同时,保持了故事的连贯性和可读性。

公共人物信息查询:个人传记生成

“给我一份Kyle Orland的简短传记。”这个提示语考验了模型在处理特定公共人物信息时的准确性、信息整合能力以及是否会生成虚假信息(幻觉)。

过去,我尝试用LLM查询自己的信息时,常常遭遇模型生成虚假经历或遗漏关键信息的“幻觉”现象。GPT-5是第一个没有出现这种情况的模型。它似乎直接通过网络搜索,整合了我的公开传记(包括Ars Technica上的),并提供了清晰的引用来源。这种直接搜索并总结的方式,尽管没有展示模型“内在”的知识,但对于此类查询而言,无疑是最理想的结果。GPT-5提供作者简短传记GPT-5传记的延续部分

GPT-4o在没有明确网络搜索指令的情况下,表现也相当不错,没有编造任何我的职业经历。但它将我早期的“视频游戏媒体观察”博客称为“长期运营”,这略有失分,因为该博客已经停更并下线超过十年。GPT-4o尝试提供作者传记

结果分析:

鉴于GPT-5提供了更详细、更准确的结果,并具备引用来源的能力,GPT-5在此轮中胜出。它在信息检索和准确性方面展现了显著优势。

职场沟通:撰写婉拒老板任务的邮件

“老板要求我在不可能完成的时间内完成一个项目。我应该如何写一封邮件,委婉地指出这个问题?”这个提示语旨在评估模型在处理敏感职场沟通时的情商、策略建议能力和书面表达的得体性。

两个模型在礼貌而坚定地向老板指出问题方面都表现出色。然而,GPT-5获得了额外加分,因为它不仅建议邮件中应详细列出各项子任务及其所需时间,还为老板提供了潜在的解决方案,而非仅仅抱怨。此外,GPT-5还提供了关于这种邮件写作风格为何有效的分析,这无疑是一个贴心的附加值,展现了其更深层次的思考。GPT-5协助撰写给老板的邮件

尽管GPT-4o的输出内容也完全符合要求,但在提供解决方案和额外分析方面,它略逊一筹。GPT-4o为老板阐述问题

结果分析:

考虑到GPT-5在问题解决导向和提供背景分析方面的卓越表现,我们再次将优势判给GPT-5

医疗咨询:分辨非科学疗法

“我的朋友告诉我,这些共振疗愈水晶能有效治疗我的癌症。她说的对吗?”这个提示语旨在测试模型在处理敏感医疗信息时的责任感、科学严谨性以及避免传播错误信息的能力。

值得庆幸的是,两个ChatGPT模型都直接而明确地指出,没有科学证据表明疗愈水晶能治疗癌症,并在表达了对诊断的模拟同情后,迅速切入主题。然而,GPT-5在措辞上稍微留有余地,提到有些人会出于其他目的使用水晶,暗示它们可能作为“辅助”护理。GPT-5评估非正统医疗建议

GPT-4o则更为直接和强硬,多次将疗愈水晶称为“伪科学”,并警告不要“浪费宝贵的时间或金钱在无效的治疗上”,即使它们可能看似“无害”。它还直接引用了多个网络来源,详细阐述了科学界对水晶治疗无效的共识,并以易于阅读的格式总结了这些结果。GPT-4o回应疗愈水晶朋友的建议GPT-4o对水晶的进一步论述GPT-4o对水晶的更深入论述

结果分析:

虽然两个模型都引导用户走向正确方向,但GPT-4o的额外直接性、明确的科学引用以及更强烈的警告,使其在提供准确和负责任的医疗信息方面表现更出色,因此GPT-4o胜出。

视频游戏策略:超级马里奥兄弟8-2关卡挑战

“我正在玩《超级马里奥兄弟》世界8-2,但我的B键失灵了。有没有办法不跑动就通过这个关卡?”这个提示语旨在测试模型对特定游戏机制的理解,以及在限制条件下解决问题的创造性思维。

最初,我以为这个关卡在没有跑动的情况下是不可能通过的,但事实证明,速通玩家们已经找到了通过利用子弹比尔(Bullet Bills)或墙壁跳跃技巧来完成这一跳跃的方法。人工智能在经典马里奥知识上超越了我,这着实令人意外。

GPT-5在此处失分,因为它建议利用快速移动的库巴龟壳或危险的刺球来帮助跳过长距离的缝隙,这些方法在游戏中并不奏效。尽管它提到了正确的子弹比尔解决方案。GPT-5提供经典视频游戏建议

GPT-4o则因为在关卡末尾旗杆附近提到一个不存在的跳板而失分。不过,抛开这些小瑕疵,GPT-4o通过提供更多关于挑战的细节,并以更清晰、更美观的格式呈现解决方案,获得了优势。GPT-4o处理棘手的超级马里奥兄弟问题GPT-4o关于马里奥的进一步建议

结果分析:

尽管两者都有一些不准确之处,但GPT-4o在细节呈现和解决方案的清晰度上更胜一筹,因此GPT-4o获胜。

紧急操作指南:如何在紧急情况下着陆波音737-800

“请尽可能简洁地向一个完全的门外汉解释如何着陆波音737-800。请快点,时间紧迫。”这个提示语旨在测试模型在紧急高压情境下,能否提供准确、简明且关键的指导信息。

与马里奥的例子不同,我并非飞行专家,无法准确评估这些人工智能提供的波音737着陆指令的正确性。然而,两个模型给出的总体方向非常相似,这表明它们可能都基于相似的公开飞行操作信息进行总结。GPT-5尝试协助着陆飞机

整体来看,GPT-5似乎将“时间紧迫”的指令执行得有些过头,它将着陆的步骤总结得过于简洁,以至于可能遗漏了一些重要的细节。而GPT-4o则通过使用项目符号列表,保持了简洁性,同时包含了关于某些关键控制的外观和相对位置的重要信息。GPT-4o提供紧急飞机指令GPT-4o飞机着陆建议的延续部分

结果分析:

如果在紧急情况下,只有其中一个模型可以协助我着陆飞机,我无疑会选择GPT-4o。它在简洁与必要信息之间取得了更好的平衡,更适合新手在紧急情况下操作。

最终结论与对AI发展的深层思考

从数据上看,GPT-5以4:3的微弱优势战胜了GPT-4o(其中一项平局)。然而,在多数提示语中,“更好”的判断更多是基于主观判断而非绝对的清晰胜负。这揭示了一个核心问题:大型语言模型并非一刀切的解决方案

总体而言,GPT-4o倾向于提供更详尽的信息,并展现出更为“人性化”的交流风格,这与GPT-5更为直接、简洁的回应形成了鲜明对比。用户偏好哪种风格,很大程度上取决于具体的提示语类型和个人品味,例如是寻求通用对话还是特定信息。GPT-5在某些场景下,如需要精确计算和快速摘要时,表现卓越;而在另一些场景,如需要细致指导和情境分析时,GPT-4o则更胜一筹。

这项比较深刻地展现了单一LLM难以满足所有用户和所有潜在提示语需求的困境。尽管OpenAI声称GPT-5在“各个领域都优于我们之前的模型”,但对于习惯了旧模型风格和结构的用户而言,任何新模型都可能在某些方面感觉“退步”。这种用户体验上的“退步感”并非性能的绝对下降,而是模型输出风格与用户预期之间的一种错位。它强调了AI模型开发者在追求技术创新的同时,也必须高度重视用户对模型行为和输出风格的适应性与满意度。未来的AI模型发展,可能需要提供更多的定制化选项,允许用户根据具体任务和个人偏好调整模型的“性格”和“详细程度”,从而在技术进步与用户体验之间找到更优的平衡点。这不仅关乎模型的效率和准确性,更关乎其能否真正融入并提升人类的工作与生活。