在人工智能领域持续迭代的浪潮中,OpenAI近日宣布推出其最新一代大型语言模型家族——GPT-5及其衍生版本GPT-5 Pro、GPT-5 mini和GPT-5 nano。此次发布标志着OpenAI在构建“最佳AI系统”方面取得又一重要进展,尤其值得关注的是,部分模型功能将向所有ChatGPT用户开放,包括免费用户,这在OpenAI模拟推理AI模型中尚属首次。新模型家族的核心特性包括显著减少“幻觉”(即生成不真实信息)的发生、提升编程能力,以及引入一种名为“安全补全”的全新敏感请求处理方法。
统一的智能系统与卓越推理能力
GPT-5被定位为OpenAI各项AI能力的统一体,旨在提供一个智能且高效的整体系统。其内部机制整合了一个能够处理多数日常问题的核心模型,以及一个专为复杂挑战设计的深度推理模型“GPT-5 Thinking”。一个实时路由器将根据对话类型、复杂性、工具需求和用户意图智能地选择最合适的处理方式。如同先前的GPT-4o,GPT-5亦是一个多模态系统,支持图像、语音和文本交互,进一步拓宽了其应用边界。
新模型家族的推出已面向ChatGPT的7亿周活跃用户逐步展开,不同订阅层级的用户将享有差异化的使用限制。其中,Pro订阅用户可无限制访问GPT-5及GPT-5 Pro,而Plus用户的使用限制将远高于免费用户。值得注意的是,GPT-5 Pro将替代现有的o3-pro模型,为高级用户带来更为强大的能力。
技术性能的深度剖析
自2023年GPT-4问世以来,AI模型在能力跃升方面呈现出边际效益递减的趋势。相较于GPT-3到GPT-4的震撼性飞跃,GPT-5在能力上仍有显著进步,但考虑到GPT-4o、GPT-4.5、GPT-4.1以及o3-pro等中间版本,GPT-5更像是一次积累性而非颠覆性的升级。尽管如此,OpenAI选择“GPT-5”这一品牌名称,无疑将提升其在竞争激烈的市场中的公众认知度。
在核心技术改进方面,OpenAI宣称GPT-5拥有其“最强大的编程模型”,在SWE-bench Verified基准测试中得分达到74.9%,在Aider Polyglot基准测试中达到88%。这一表现超越了同期Anthropic发布的Claude Opus 4.1(74.5%)。GPT-5能够“以最少的提示端到端地完成复杂的编码任务”,甚至为非编码用户创建软件界面设计,这无疑大大降低了编程的门槛。
针对健康相关查询,GPT-5再次被定位为“最佳模型”,在HealthBench Hard(由OpenAI发明)基准测试中取得了46.2%的成绩。尽管公司强调ChatGPT不能取代专业医疗人员,但模型能够协助用户理解医疗报告并准备向医生提出的问题。然而,鉴于所有AI语言模型本质上是预测性模型且倾向于满足用户预期,使用者仍需谨慎核实其输出信息。
在其他性能指标上,GPT-5在未借助工具的情况下,于AIME 2025数学测试中达到94.6%,在MMMU多模态理解测试中达到84.2%。结合GPT-5 Pro的扩展推理能力,其在GPQA测试中未借助工具的情况下达到了88.4%的最新先进水平。OpenAI声称,启用“思考”模式的GPT-5在不同能力上,输出的令牌数量比OpenAI o3模型降低了50%至80%,但性能更优。
GPT-5在准确性方面表现出显著提升。当启用网页搜索功能时,GPT-5的响应出现事实错误(幻觉)的可能性比GPT-4o降低了约45%;在“思考”模式下,出现事实错误的可能性比o3模型降低了约80%。对于长篇内容基准测试,启用“思考”模式的GPT-5产生的幻觉比o3模型减少了约六倍。尽管如此,鉴于AI模型在知识空白时可能编造看似合理的信息,用户仍需自行核实输出内容的准确性。
用户界面与安全策略的创新
ChatGPT的用户界面也迎来了系列更新,包括可自定义的聊天颜色、预设的对话“个性”(如“愤世嫉俗者”、“机器人”、“倾听者”和“书呆子”等,这些选项会修改系统提示词),以及为Pro用户提供的与Gmail、Google日历和Google联系人的集成。语音模式被整合为一个统一的“高级语音”系统,OpenAI表示该系统能更好地理解用户指令并调整说话风格,提供更自然、更人性化的交互体验。
在响应审查方面,OpenAI采用了“安全补全”的新方法。GPT-5不再简单地拒绝请求,而是尝试在安全边界内提供“尽可能有帮助的响应”。当模型无法协助某个请求时,它会解释其局限性,从而提升用户体验和透明度。
此外,OpenAI还解决了此前GPT-4o版本中出现的阿谀奉承问题。通过新的评估和训练改进,GPT-5在目标评估中将阿谀奉承回复的比例从14.5%降至不足6%。这一改进对于确保AI模型的客观性和避免潜在的用户误导至关重要,也为近期一些用户报告的因ChatGPT导致的妄想和躁狂行为问题提供了缓解思路。
开发者生态与市场格局
对于开发者而言,GPT-5提供了三种API版本:gpt-5、gpt-5-mini和gpt-5-nano,它们在延迟和成本之间提供了不同的权衡。上下文窗口已扩展到256,000个令牌,高于OpenAI先前o3模型的200,000个令牌。需要更大上下文窗口的开发者仍可使用GPT-4.1及其100万令牌容量。
GPT-5的API定价为每百万输入令牌1.25美元(具有90%的缓存折扣),每百万输出令牌10美元。这与GPT-4.1(每百万令牌输入2美元/输出8美元)和o3(每百万令牌输入2美元/输出8美元)的价格大致相当。GPT-5 Mini提供了更经济的选择,每百万输入令牌0.25美元,每百万输出令牌2美元;而GPT-5 Nano则提供最具成本效益但能力最低的层级,每百万输入令牌仅0.05美元,每百万输出令牌0.40美元。GPT-5 Pro的API访问价格尚未公布。
新的开发者功能包括“自由形式函数调用”,允许直接向工具发送SQL命令等原始字符串而无需JSON格式化;响应详细程度的“冗余控制”;以及允许开发者在快速响应和深度分析之间切换的“推理努力控制”。这些功能增强了API的灵活性和可定制性,满足了不同开发场景的需求。
GPT-5的推出正值OpenAI面临来自Google的Gemini模型、Anthropic的Claude系列以及Meta的开源Llama模型的日益激烈竞争之际。OpenAI报告称,其拥有500万付费商业用户和400万在API平台上构建应用的开发者,这为其新模型的市场推广奠定了坚实基础。
GPT-5将替代GPT-4o、OpenAI o3、OpenAI o4-mini、GPT-4.1和GPT-4.5,成为已登录ChatGPT用户的默认模型。系统将自动在需要时应用模拟推理,而付费用户仍可通过模型选择器或在提示中添加“认真思考此问题”等短语来确保使用“GPT-5 Thinking”功能。新模型已于发布当天向所有用户层级推出,企业和教育客户将在下周获得访问权限。OpenAI计划在30天内逐步淘汰标准语音模式,全面过渡到统一的高级语音系统。当免费用户达到GPT-5的使用限制后,将自动切换到较小、更快的GPT-5 mini模型,以保证服务的连续性。