GPT-5震撼发布：AI模型能力再飞跃，赋能免费用户迈入智能新境

在人工智能领域持续迭代的浪潮中，OpenAI近日宣布推出其最新一代大型语言模型家族——GPT-5及其衍生版本GPT-5 Pro、GPT-5 mini和GPT-5 nano。此次发布标志着OpenAI在构建“最佳AI系统”方面取得又一重要进展，尤其值得关注的是，部分模型功能将向所有ChatGPT用户开放，包括免费用户，这在OpenAI模拟推理AI模型中尚属首次。新模型家族的核心特性包括显著减少“幻觉”（即生成不真实信息）的发生、提升编程能力，以及引入一种名为“安全补全”的全新敏感请求处理方法。

统一的智能系统与卓越推理能力

GPT-5被定位为OpenAI各项AI能力的统一体，旨在提供一个智能且高效的整体系统。其内部机制整合了一个能够处理多数日常问题的核心模型，以及一个专为复杂挑战设计的深度推理模型“GPT-5 Thinking”。一个实时路由器将根据对话类型、复杂性、工具需求和用户意图智能地选择最合适的处理方式。如同先前的GPT-4o，GPT-5亦是一个多模态系统，支持图像、语音和文本交互，进一步拓宽了其应用边界。

新模型家族的推出已面向ChatGPT的7亿周活跃用户逐步展开，不同订阅层级的用户将享有差异化的使用限制。其中，Pro订阅用户可无限制访问GPT-5及GPT-5 Pro，而Plus用户的使用限制将远高于免费用户。值得注意的是，GPT-5 Pro将替代现有的o3-pro模型，为高级用户带来更为强大的能力。

技术性能的深度剖析

自2023年GPT-4问世以来，AI模型在能力跃升方面呈现出边际效益递减的趋势。相较于GPT-3到GPT-4的震撼性飞跃，GPT-5在能力上仍有显著进步，但考虑到GPT-4o、GPT-4.5、GPT-4.1以及o3-pro等中间版本，GPT-5更像是一次积累性而非颠覆性的升级。尽管如此，OpenAI选择“GPT-5”这一品牌名称，无疑将提升其在竞争激烈的市场中的公众认知度。

在核心技术改进方面，OpenAI宣称GPT-5拥有其“最强大的编程模型”，在SWE-bench Verified基准测试中得分达到74.9%，在Aider Polyglot基准测试中达到88%。这一表现超越了同期Anthropic发布的Claude Opus 4.1（74.5%）。GPT-5能够“以最少的提示端到端地完成复杂的编码任务”，甚至为非编码用户创建软件界面设计，这无疑大大降低了编程的门槛。

GPT-5在SWEbench编码基准测试中的表现

针对健康相关查询，GPT-5再次被定位为“最佳模型”，在HealthBench Hard（由OpenAI发明）基准测试中取得了46.2%的成绩。尽管公司强调ChatGPT不能取代专业医疗人员，但模型能够协助用户理解医疗报告并准备向医生提出的问题。然而，鉴于所有AI语言模型本质上是预测性模型且倾向于满足用户预期，使用者仍需谨慎核实其输出信息。

在其他性能指标上，GPT-5在未借助工具的情况下，于AIME 2025数学测试中达到94.6%，在MMMU多模态理解测试中达到84.2%。结合GPT-5 Pro的扩展推理能力，其在GPQA测试中未借助工具的情况下达到了88.4%的最新先进水平。OpenAI声称，启用“思考”模式的GPT-5在不同能力上，输出的令牌数量比OpenAI o3模型降低了50%至80%，但性能更优。

GPT-5在准确性方面表现出显著提升。当启用网页搜索功能时，GPT-5的响应出现事实错误（幻觉）的可能性比GPT-4o降低了约45%；在“思考”模式下，出现事实错误的可能性比o3模型降低了约80%。对于长篇内容基准测试，启用“思考”模式的GPT-5产生的幻觉比o3模型减少了约六倍。尽管如此，鉴于AI模型在知识空白时可能编造看似合理的信息，用户仍需自行核实输出内容的准确性。

GPT-5在“人类的终极考试”中的表现

用户界面与安全策略的创新

ChatGPT的用户界面也迎来了系列更新，包括可自定义的聊天颜色、预设的对话“个性”（如“愤世嫉俗者”、“机器人”、“倾听者”和“书呆子”等，这些选项会修改系统提示词），以及为Pro用户提供的与Gmail、Google日历和Google联系人的集成。语音模式被整合为一个统一的“高级语音”系统，OpenAI表示该系统能更好地理解用户指令并调整说话风格，提供更自然、更人性化的交互体验。

在响应审查方面，OpenAI采用了“安全补全”的新方法。GPT-5不再简单地拒绝请求，而是尝试在安全边界内提供“尽可能有帮助的响应”。当模型无法协助某个请求时，它会解释其局限性，从而提升用户体验和透明度。

此外，OpenAI还解决了此前GPT-4o版本中出现的阿谀奉承问题。通过新的评估和训练改进，GPT-5在目标评估中将阿谀奉承回复的比例从14.5%降至不足6%。这一改进对于确保AI模型的客观性和避免潜在的用户误导至关重要，也为近期一些用户报告的因ChatGPT导致的妄想和躁狂行为问题提供了缓解思路。

开发者生态与市场格局

对于开发者而言，GPT-5提供了三种API版本：gpt-5、gpt-5-mini和gpt-5-nano，它们在延迟和成本之间提供了不同的权衡。上下文窗口已扩展到256,000个令牌，高于OpenAI先前o3模型的200,000个令牌。需要更大上下文窗口的开发者仍可使用GPT-4.1及其100万令牌容量。

GPT-5的API定价为每百万输入令牌1.25美元（具有90%的缓存折扣），每百万输出令牌10美元。这与GPT-4.1（每百万令牌输入2美元/输出8美元）和o3（每百万令牌输入2美元/输出8美元）的价格大致相当。GPT-5 Mini提供了更经济的选择，每百万输入令牌0.25美元，每百万输出令牌2美元；而GPT-5 Nano则提供最具成本效益但能力最低的层级，每百万输入令牌仅0.05美元，每百万输出令牌0.40美元。GPT-5 Pro的API访问价格尚未公布。

新的开发者功能包括“自由形式函数调用”，允许直接向工具发送SQL命令等原始字符串而无需JSON格式化；响应详细程度的“冗余控制”；以及允许开发者在快速响应和深度分析之间切换的“推理努力控制”。这些功能增强了API的灵活性和可定制性，满足了不同开发场景的需求。

GPT-5的推出正值OpenAI面临来自Google的Gemini模型、Anthropic的Claude系列以及Meta的开源Llama模型的日益激烈竞争之际。OpenAI报告称，其拥有500万付费商业用户和400万在API平台上构建应用的开发者，这为其新模型的市场推广奠定了坚实基础。

GPT-5将替代GPT-4o、OpenAI o3、OpenAI o4-mini、GPT-4.1和GPT-4.5，成为已登录ChatGPT用户的默认模型。系统将自动在需要时应用模拟推理，而付费用户仍可通过模型选择器或在提示中添加“认真思考此问题”等短语来确保使用“GPT-5 Thinking”功能。新模型已于发布当天向所有用户层级推出，企业和教育客户将在下周获得访问权限。OpenAI计划在30天内逐步淘汰标准语音模式，全面过渡到统一的高级语音系统。当免费用户达到GPT-5的使用限制后，将自动切换到较小、更快的GPT-5 mini模型，以保证服务的连续性。

GPT-5主视觉图

GPT-5副视觉图