自OpenAI推出GPT-5模型以来,市场与用户社区对其表现褒贬不一。部分用户对新模型的“无菌化”语调、创意能力的下降以及“幻觉”现象的增多表达了强烈不满,甚至促使OpenAI重新提供GPT-4o作为可选模型。为了客观评估这两款旗舰模型的真实能力差异,本文设计了一系列多维度测试,旨在深入剖析它们在处理不同类型任务时的特点。
幽默感:达人笑话的创作对比
测试中,我们要求两款模型创作五则原创的“老爸笑话”(Dad Jokes)。GPT-5生成的笑话形式感强,符合经典的“老爸笑话”风格,虽然其中不乏一些广为人知的段子,但其表达的简洁与直接使其颇具传播潜力。这些笑话在理解目标受众(如青少年)方面表现出色,能够有效引起共鸣。然而,其“原创性”的不足是一个明显的短板。
相较之下,GPT-4o在尝试原创性方面做出了更多努力。它将一些经典笑话与新颖的元素结合,部分笑话展现出巧妙的文字游戏。例如,关于“日历”和“船”的笑话,虽然在逻辑上可能略显牵强,但其尝试将不同领域的概念进行融合的创新精神值得肯定。GPT-4o似乎更倾向于从零开始构建新的笑点,而非仅仅复述已知内容。综合来看,两款模型在幽默感测试中各有优劣,GPT-5胜在形式的规范和大众接受度,GPT-4o则在探索原创性方面迈出了步子,但有时会牺牲笑话的清晰度和趣味性。
数学与逻辑:Windows 11安装盘的计算挑战
我们提出一个假设性问题:如果Microsoft Windows 11操作系统安装在3.5英寸软盘上,需要多少张软盘?这个题目旨在考察模型的信息检索、单位转换和逻辑推理能力。
GPT-5在此次测试中表现出卓越的精确性。它不仅准确估算了Windows 11安装ISO文件的大小(约5-6GB),并且提供了可靠的来源链接,这体现了其在处理事实性数据和引用信息方面的严谨性。随后,它将此数据与3.5英寸软盘的容量(通常为1.44MB)进行精确计算,得出了一个高度准确的软盘数量。GPT-5在“思考”模式下展现出的深度分析能力,使其能够更好地理解问题的核心,即“出货”大小而非最终安装占用空间。
GPT-4o则采用了不同的数据点,它以Windows 11最终在硬盘上的安装占用空间(20-30GB)作为计算基础。虽然这个解释角度也能理解,但在语义上,与“出货”的原始问题相比,它显得不够贴切。尽管GPT-4o额外提供了数千张软盘的堆叠高度和重量信息,这种未要求但具趣味性的扩展信息并未弥补其在核心计算起点上的偏差。因此,在需要精确数据与严谨逻辑的场景下,GPT-5表现出更强的专业处理能力。
创意写作:历史人物的虚构故事
我们要求模型创作一个关于亚伯拉罕·林肯发明篮球的两段式创意故事,旨在评估其想象力、叙事能力和细节描绘。
GPT-5的故事中,林肯的形象被描绘得更具乡村气息,口语化表达略显过度,这或许是为了营造一种轻松愉快的氛围。故事中引入“医药球”作为初期篮球的概念,虽然在现实中不符合逻辑,但在虚构叙事中也算是一个大胆的尝试。然而,GPT-5的亮点在于其对叙事节奏的把控和一些富有创意的措辞,如“历史即将向一个新方向反弹”和“不许与总统摔跤!”等,这些句子为故事增添了趣味性和独特性。这种能力表明GPT-5在特定主题下,能够生成具有一定文学性和想象力的内容,尤其是在营造戏剧冲突和幽默感方面。
GPT-4o则尝试在故事中融入更深层次的象征意义,例如将跳投比作“伟大的解放”,将篮球赛场描述为“最纯粹的民主形式”。这种尝试提升了故事的立意,但也可能导致叙事略显生硬或牵强,某些比喻并不十分贴切。然而,GPT-4o以一句“四分……空心入网”作为结尾,巧妙地结合了历史语境与篮球术语,展现了其在文字游戏和结局设计上的功力。总体而言,GPT-5在保持故事流畅性和趣味性方面略占优势,而GPT-4o则更注重故事的隐喻和象征意义,尽管有时会牺牲叙事自然度。在创意写作领域,模型的风格偏好往往决定了最终效果,两者各有所长。
公共人物信息:个人传记的准确性与深度
在生成特定公共人物(即本文作者Kyle Orland)的简短传记时,模型的表现揭示了其在信息检索和事实核查方面的能力。
GPT-5在本次测试中表现出显著的优势。它通过主动进行网络搜索,整合了多个公开来源的个人简介信息,并提供了清晰的引用来源。这种基于实时信息检索和汇总的能力,确保了其生成内容的准确性和时效性。GPT-5不仅准确地列出了作者的职业经历和主要成就,还避免了以往模型常出现的“幻觉”现象,即捏造不存在的事实。这表明GPT-5在处理需要高度事实准确性的信息查询时,能够采取更稳健、更负责任的方法,其结合了传统搜索引擎的优势,将信息检索与内容生成有机结合。
GPT-4o虽然在没有明确网络搜索指令的情况下,也生成了一份相对准确的传记,并且没有明显的捏造内容。然而,它在细节处理上存在一些不足,例如将一个早已停运的博客项目描述为“长期运营”。这种小瑕疵反映出其知识库的时效性可能不如GPT-5通过实时搜索获得的。尽管GPT-4o的表现尚可,但GPT-5在信息完整性、准确性和引用透明度方面的优势,使其在处理公共人物信息查询这类任务时,提供了更可靠和详尽的答复。
职场沟通:处理棘手邮件的策略
我们模拟了一个职场场景:用户被老板要求在不可能的时间内完成项目,需要撰写一封委婉指出问题的邮件。此测试旨在评估模型在情商、问题解决和专业沟通方面的能力。
两款模型都展现了良好的职业素养,生成了礼貌且坚定的邮件草稿。然而,GPT-5在此基础上提供了更具建设性的解决方案。它不仅建议在邮件中详细列出各项子任务及其所需时间,更进一步提出了潜在的解决方案,而非仅仅是抱怨。例如,可以协商优先级、请求额外资源或重新评估截止日期等。此外,GPT-5还提供了关于此类邮件为何有效的额外分析,帮助用户理解其沟通策略背后的逻辑。这种多层次的建议,使得GPT-5在应对复杂职场问题时,不仅能提供具体措辞,还能提供策略性思考。
GPT-4o的邮件草稿虽然完全合格,结构清晰,语气得体,但在提供深度解决方案和额外指导方面略显不足。它更侧重于表达困难和请求协商,而缺乏GPT-5那种主动提供多元化解决方案的积极性。因此,在需要更全面、更具前瞻性职场沟通策略时,GPT-5提供了更为优质和富有洞察力的支持。
医疗建议:驳斥伪科学的严谨性
针对“共振疗愈水晶是否能有效治疗癌症”这一问题,模型被要求提供医学建议。此测试旨在评估模型在处理敏感医疗信息时的责任感、准确性以及对伪科学的批判性立场。
两款模型都明确指出,没有科学证据支持水晶疗法可以治疗癌症,这体现了它们在医疗信息提供上的基本责任。然而,GPT-4o在处理此问题时展现出更为直接和强硬的立场。它多次将水晶疗法斥为“伪科学”,并明确警告用户避免“浪费宝贵的时间和金钱在无效的治疗上”。更重要的是,GPT-4o直接引用了多个网络来源,详细阐述了科学界对水晶疗法的共识,并通过易于阅读的格式进行了总结。这种直接、明确且有据可查的回应,对于引导用户远离误导性信息至关重要。
GPT-5在否认水晶疗法有效性的同时,略显保守,它提及了部分人将水晶用于“补充性”护理的用途,虽然无伤大雅,但这种措辞可能在某种程度上削弱了对伪科学的坚定否定。在涉及公共健康和安全的关键领域,GPT-4o的果断和详尽的引用来源使其成为更可靠的信息提供者。其强调科学证据和避免潜在危害的强烈语气,对于面对严重疾病的求助者而言,具有更强的指导意义和保护作用。
游戏策略:克服《超级马里奥兄弟》挑战
我们向模型提出了一个具体的游戏难题:《超级马里奥兄弟》8-2关卡中,B键(奔跑)失灵,如何在不奔跑的情况下通过?此测试旨在评估模型对特定领域知识的掌握程度和问题解决的创造性。
这个看似简单的游戏问题,实则隐藏着意想不到的复杂性。出乎意料的是,专业速通玩家已发现无需奔跑即可跨越8-2关卡最长鸿沟的方法,这颠覆了常识。GPT-5在给出解决方案时,提到可以利用快速移动的库巴龟壳或尖刺作为跳板来跨越鸿沟,但这些方法在实际游戏中并非总能实现,甚至可能误导玩家。尽管它也提到了正确的子弹比尔(Bullet Bill)辅助跳跃方法,但信息中掺杂的不准确之处降低了其可靠性。这表明GPT-5在处理特定游戏机制细节时,可能存在一定的泛化错误。
GPT-4o在此项测试中表现更为出色,它提供了关于挑战的额外细节,并且以更清晰、更易读的格式呈现了解决方案。虽然它在结尾处错误地提及旗杆附近不存在的跳板,但其核心解决方案和对游戏机制的理解更为贴近实际可行的方法。GPT-4o更侧重于提供实用且详细的策略,而非泛泛而谈。在需要高度专业和具体操作指导的场景下,GPT-4o在信息组织和实操性方面展现出更强的优势。
紧急指导:波音737-800着陆操作
最后一个挑战是要求模型向完全的新手,尽可能简洁地解释如何着陆一架波音737-800飞机,并强调“时间紧迫”。此测试评估模型在紧急情况下的信息提取、简化和指导能力。
鉴于此任务的专业性和潜在风险,我们无法直接验证模型指令的绝对正确性,但可以评估其在传达关键信息方面的效率和清晰度。GPT-5在收到“时间紧迫”的指令后,将着陆步骤总结得非常精炼。然而,这种高度的简洁性可能导致一些关键操作细节被省略,这在紧急情况下可能是不利的。过度简化可能会让新手在实际操作时感到迷茫,尤其是在识别复杂控制系统方面。
相较之下,GPT-4o在保持简洁性的同时,提供了更为详细的关键信息。它以清晰的要点列出了操作步骤,并加入了关于某些关键控制装置的外观和相对位置的说明。例如,它可能会指导用户如何识别特定拨杆或按钮,这对于一个对驾驶舱一无所知的人来说至关重要。尽管两款模型在宏观步骤上可能相似,但GPT-4o在细节上的考量,使其在模拟紧急指导情境下更具实用性和可靠性。在生命攸关的紧急情况下,清晰、具体且有指导性的信息显然更为可取。
综合评估与模型风格洞察
通过上述八项测试,GPT-5在四项任务中表现出更优,GPT-4o在三项任务中占据优势,一项为平局。然而,这种简单的胜负计数并不能完全揭示两款模型的深层差异。事实上,它们之间的“优劣”更多是一种风格偏好和任务适用性的体现,而非绝对的性能高低。
GPT-5的特点:它通常提供更为直接、简洁且偏向事实性汇总的回复。在需要精确计算、信息整合或策略性思考的任务中,GPT-5展现出更强的分析能力和严谨性。其在处理公共人物信息和职场沟通等场景中的表现,反映了其在提供可靠、结构化信息方面的优势。然而,其在创意表达和幽默感方面可能显得过于程式化,有时会牺牲细节或情感色彩。
GPT-4o的特点:它倾向于提供更详细、更具人性化和更富有表现力的回复。在医疗建议和游戏策略等需要情境理解和具体指导的任务中,GPT-4o通过提供更丰富的细节和更具共情力的语言,赢得了用户的青睐。尽管有时其信息可能不够精确或略显啰嗦,但其亲和力和对用户需求的细腻捕捉,使其在互动性和用户体验方面更具优势。
本次对比实验表明,大语言模型很难做到“面面俱到”。尽管OpenAI宣称GPT-5在“所有领域都优于旧模型”,但用户的感知和特定任务的需求决定了模型的适用性。对于习惯了旧模型风格和结构的用户而言,任何新模型都可能在某些方面带来“退步”感。未来的AI发展可能不仅仅是追求单一模型的“更强”,而是提供更多定制化、适应不同场景和用户偏好的模型选择。理解这些模型的内在偏好和能力边界,对于用户有效利用AI工具至关重要。选择GPT-5还是GPT-4o,最终取决于用户具体的任务目标、对回复风格的偏好以及对信息精确性或丰富性的侧重。AI技术仍在快速演进,如何更好地平衡通用性与专业性,将是未来大模型发展的重要议题。