告别冰冷AI?GPT-4.5来了,这次主打“有温度”的交流!

2

GPT-4.5来了

最近,AI圈又热闹起来了!OpenAI的掌门人Sam Altman亲自宣布:GPT-4.5准备就绪!

先别急着欢呼,Sam也说了,这回的GPT-4.5有点“不一样”。它可能不是你想象中的那种“性能怪兽”,在各种基准测试里横扫千军。但它,或许会让你第一次感觉到,AI真的开始“懂你”了。

GPT-4.5:不拼“智商”,拼“情商”?

不拼“智商”,拼“情商”

Sam Altman透露,GPT-4.5是第一个让他感觉像是在和“真人”对话的模型。甚至有几次,AI给出的建议让他都感到惊讶。

但他也坦言,GPT-4.5是个“大家伙”,而且很“烧钱”。本来想同时开放给Plus和Pro用户,但因为用户增长太快,GPU实在不够用了。

不过,OpenAI已经在“疯狂”加购GPU了,下周开始,Plus用户就能率先体验到GPT-4.5。接下来几周,还会陆续开放给更多用户。

Sam也承认,这种运营方式可能不是最理想的,但用户增长和GPU短缺,确实很难完美预测。

这里要特别注意一点:GPT-4.5不是一个注重推理的模型,所以别指望它在基准测试里创造什么新纪录。但它展现了一种“不同的智能”,一种Sam Altman从未感受过的“魔力”。

GPT-4.5:是骡子是马,拉出来遛遛!

是骡子是马,拉出来遛遛

虽然GPT-4.5不是最前沿的模型,但它可是OpenAI目前最大的语言模型,计算效率比GPT-4提升了10倍以上。

那它到底表现如何呢?咱们用数据说话:

优势项目:

  • 多语言能力 (MMMLU multilingual): 85.1%,领先其他模型。
  • 多模态任务 (MMMU multimodal): 74.4%,比GPT-4o有明显提升。
  • 科学问答 (GPQA science): 71.4%,比GPT-4o提升显著。

弱势项目:

编程能力 (SWE-Bench)

  • 数学能力 (AIME '24): 36.7%,远低于o3-mini的87.3%。
  • 编程能力 (SWE-Bench): 38%,比不上o3-mini的61%。

“真实性”大PK:

真实性”大PK

在SimpleQA测试(考察模型事实准确性的测试)中,GPT-4.5表现出色:

  • 准确率: 62.5%
  • 幻觉率: 37.1%

相比之下,GPT-4o的幻觉率接近61%。这意味着,GPT-4.5在“真实性”方面有了显著提升,能给出更准确、可靠的回答。这可能就是Sam Altman所说的“不同类型的智能”的体现。

GPT-4.5:小步快跑,稳扎稳打

回顾GPT家族的进化史:

  • GPT-1: 勉强能写出通顺的文字。
  • GPT-2: 还只是个“玩具”。
  • GPT-3: 开始变得有趣了。
  • GPT-3.5: 首次达到可商用水平,催生了ChatGPT。
  • GPT-4: 整体提升约20%,但改进比较微妙。

每个“0.5”版本,都意味着训练算力增加了10倍。

与GPT-4相比,GPT-4.5又是一次“全面小提升”。改进依然很微妙,但主要体现在“情商”相关的任务上:

  • 世界知识更丰富
  • 创造力提升
  • 类比更准确
  • 幽默感增强
  • 理解能力更强

但要注意,这只是预训练模型,还没有加入推理能力。在数学、编程等需要推理的任务上,它不如o1。OpenAI可能会用强化学习进一步提升它的思考能力。

GPT-4.5:代码能力,褒贬不一

OpenAI用内部题库测试了GPT-4.5的编程能力,结果显示:

  • 编程题得分: 79%,与deep research持平,但低于o3-mini的92%。

然而,在SWE-bench Verified测试中,GPT-4.5在软件工程能力上的提升却不尽如人意:

  • 安全对齐前 (Pre-mitigation): 35%
  • 安全对齐后 (Post-mitigation): 38%

这远低于其他模型,甚至比不上Claude 3.5/3.7的成绩。

此外,GPT-4.5在agentic tasks上的表现也不理想,得分仅为40%。

GPT-4.5:规模越大,提升越难?

不少网友表示,从基准测试来看,预训练似乎效果不大。

看看参数规模:

  • GPT-4o: 约200B参数
  • GPT-4: 1.76T参数
  • GPT-4.5: 超过2T参数

但性能提升呢?仅仅1-3%。

这或许在暗示:单纯堆参数量的方法可能已经遇到瓶颈了。

GPT-4.5:贵!很贵!非常贵!

GPT-4.5的价格,绝对能让你“眼前一亮”:

  • 输出价格: 是GPT-4o的15倍,是GPT-4o mini的250倍!
  • 输入价格: 75美元/1M tokens,比GPT-4o贵30倍!

即使是缓存输入,也要37.5美元/1M tokens。

这价格,确实让人望而却步。

GPT-4.5:不看跑分,看“疗效”

正如一位网友所说,很多人只盯着基准测试的数据,却忽略了最重要的一点:AI如何与人互动,以及它给用户带来什么样的感受。

GPT-4.5,或许就是一次“情感升级”:

  • 让AI互动更自然
  • 更懂得共情
  • 像一个有“情商”的助手

它的目标,不是在基准测试上拿高分,而是让AI变得更贴心,更懂人。

总结一下

  • GPT-4.5是GPT-4o的改进版本,采用了多种技术,并引入了新的对齐方法。
  • 主要提升:事实准确性更高,幻觉更少,对话能力增强,能读懂人类微妙的情绪和真实需求。
  • 发布计划:ChatGPT Pro用户已可试用(研究预览版),下周起将陆续开放给更多用户。
  • ChatGPT中的功能:支持搜索,可以上传文件和图片,能处理写作和编程任务,暂不支持语音、视频和屏幕共享。
  • 开发者API:支持函数调用、结构化输出、流式传输、系统消息和视觉能力。

总的来说,GPT-4.5或许不是一款“性能怪兽”,但它在“情感”和“真实性”方面的提升,或许会给AI领域带来新的思考和方向。