告别冰冷AI？GPT-4.5来了，这次主打“有温度”的交流！

GPT-4.5来了

最近，AI圈又热闹起来了！OpenAI的掌门人Sam Altman亲自宣布：GPT-4.5准备就绪！

先别急着欢呼，Sam也说了，这回的GPT-4.5有点“不一样”。它可能不是你想象中的那种“性能怪兽”，在各种基准测试里横扫千军。但它，或许会让你第一次感觉到，AI真的开始“懂你”了。

GPT-4.5：不拼“智商”，拼“情商”？

不拼“智商”，拼“情商”

Sam Altman透露，GPT-4.5是第一个让他感觉像是在和“真人”对话的模型。甚至有几次，AI给出的建议让他都感到惊讶。

但他也坦言，GPT-4.5是个“大家伙”，而且很“烧钱”。本来想同时开放给Plus和Pro用户，但因为用户增长太快，GPU实在不够用了。

不过，OpenAI已经在“疯狂”加购GPU了，下周开始，Plus用户就能率先体验到GPT-4.5。接下来几周，还会陆续开放给更多用户。

Sam也承认，这种运营方式可能不是最理想的，但用户增长和GPU短缺，确实很难完美预测。

这里要特别注意一点：GPT-4.5不是一个注重推理的模型，所以别指望它在基准测试里创造什么新纪录。但它展现了一种“不同的智能”，一种Sam Altman从未感受过的“魔力”。

GPT-4.5：是骡子是马，拉出来遛遛！

是骡子是马，拉出来遛遛

虽然GPT-4.5不是最前沿的模型，但它可是OpenAI目前最大的语言模型，计算效率比GPT-4提升了10倍以上。

那它到底表现如何呢？咱们用数据说话：

优势项目：

多语言能力 (MMMLU multilingual): 85.1%，领先其他模型。
多模态任务 (MMMU multimodal): 74.4%，比GPT-4o有明显提升。
科学问答 (GPQA science): 71.4%，比GPT-4o提升显著。

弱势项目：

编程能力 (SWE-Bench)

数学能力 (AIME '24): 36.7%，远低于o3-mini的87.3%。
编程能力 (SWE-Bench): 38%，比不上o3-mini的61%。

“真实性”大PK：

真实性”大PK

在SimpleQA测试（考察模型事实准确性的测试）中，GPT-4.5表现出色：

准确率： 62.5%
幻觉率： 37.1%

相比之下，GPT-4o的幻觉率接近61%。这意味着，GPT-4.5在“真实性”方面有了显著提升，能给出更准确、可靠的回答。这可能就是Sam Altman所说的“不同类型的智能”的体现。

GPT-4.5：小步快跑，稳扎稳打

回顾GPT家族的进化史：

GPT-1: 勉强能写出通顺的文字。
GPT-2: 还只是个“玩具”。
GPT-3: 开始变得有趣了。
GPT-3.5: 首次达到可商用水平，催生了ChatGPT。
GPT-4: 整体提升约20%，但改进比较微妙。

每个“0.5”版本，都意味着训练算力增加了10倍。

与GPT-4相比，GPT-4.5又是一次“全面小提升”。改进依然很微妙，但主要体现在“情商”相关的任务上：

世界知识更丰富
创造力提升
类比更准确
幽默感增强
理解能力更强

但要注意，这只是预训练模型，还没有加入推理能力。在数学、编程等需要推理的任务上，它不如o1。OpenAI可能会用强化学习进一步提升它的思考能力。

GPT-4.5：代码能力，褒贬不一

OpenAI用内部题库测试了GPT-4.5的编程能力，结果显示：

编程题得分： 79%，与deep research持平，但低于o3-mini的92%。

然而，在SWE-bench Verified测试中，GPT-4.5在软件工程能力上的提升却不尽如人意：

安全对齐前 (Pre-mitigation): 35%
安全对齐后 (Post-mitigation): 38%

这远低于其他模型，甚至比不上Claude 3.5/3.7的成绩。

此外，GPT-4.5在agentic tasks上的表现也不理想，得分仅为40%。

GPT-4.5：规模越大，提升越难？

不少网友表示，从基准测试来看，预训练似乎效果不大。

看看参数规模：

GPT-4o: 约200B参数
GPT-4: 1.76T参数
GPT-4.5: 超过2T参数

但性能提升呢？仅仅1-3%。

这或许在暗示：单纯堆参数量的方法可能已经遇到瓶颈了。

GPT-4.5：贵！很贵！非常贵！

GPT-4.5的价格，绝对能让你“眼前一亮”：

输出价格： 是GPT-4o的15倍，是GPT-4o mini的250倍！
输入价格： 75美元/1M tokens，比GPT-4o贵30倍！

即使是缓存输入，也要37.5美元/1M tokens。

这价格，确实让人望而却步。

GPT-4.5：不看跑分，看“疗效”

正如一位网友所说，很多人只盯着基准测试的数据，却忽略了最重要的一点：AI如何与人互动，以及它给用户带来什么样的感受。

GPT-4.5，或许就是一次“情感升级”：

让AI互动更自然
更懂得共情
像一个有“情商”的助手

它的目标，不是在基准测试上拿高分，而是让AI变得更贴心，更懂人。

总结一下

GPT-4.5是GPT-4o的改进版本，采用了多种技术，并引入了新的对齐方法。
主要提升：事实准确性更高，幻觉更少，对话能力增强，能读懂人类微妙的情绪和真实需求。
发布计划：ChatGPT Pro用户已可试用（研究预览版），下周起将陆续开放给更多用户。
ChatGPT中的功能：支持搜索，可以上传文件和图片，能处理写作和编程任务，暂不支持语音、视频和屏幕共享。
开发者API：支持函数调用、结构化输出、流式传输、系统消息和视觉能力。

总的来说，GPT-4.5或许不是一款“性能怪兽”，但它在“情感”和“真实性”方面的提升，或许会给AI领域带来新的思考和方向。