最近,AI圈又热闹起来了!OpenAI的掌门人Sam Altman亲自宣布:GPT-4.5准备就绪!
先别急着欢呼,Sam也说了,这回的GPT-4.5有点“不一样”。它可能不是你想象中的那种“性能怪兽”,在各种基准测试里横扫千军。但它,或许会让你第一次感觉到,AI真的开始“懂你”了。
GPT-4.5:不拼“智商”,拼“情商”?
Sam Altman透露,GPT-4.5是第一个让他感觉像是在和“真人”对话的模型。甚至有几次,AI给出的建议让他都感到惊讶。
但他也坦言,GPT-4.5是个“大家伙”,而且很“烧钱”。本来想同时开放给Plus和Pro用户,但因为用户增长太快,GPU实在不够用了。
不过,OpenAI已经在“疯狂”加购GPU了,下周开始,Plus用户就能率先体验到GPT-4.5。接下来几周,还会陆续开放给更多用户。
Sam也承认,这种运营方式可能不是最理想的,但用户增长和GPU短缺,确实很难完美预测。
这里要特别注意一点:GPT-4.5不是一个注重推理的模型,所以别指望它在基准测试里创造什么新纪录。但它展现了一种“不同的智能”,一种Sam Altman从未感受过的“魔力”。
GPT-4.5:是骡子是马,拉出来遛遛!
虽然GPT-4.5不是最前沿的模型,但它可是OpenAI目前最大的语言模型,计算效率比GPT-4提升了10倍以上。
那它到底表现如何呢?咱们用数据说话:
优势项目:
- 多语言能力 (MMMLU multilingual): 85.1%,领先其他模型。
- 多模态任务 (MMMU multimodal): 74.4%,比GPT-4o有明显提升。
- 科学问答 (GPQA science): 71.4%,比GPT-4o提升显著。
弱势项目:
- 数学能力 (AIME '24): 36.7%,远低于o3-mini的87.3%。
- 编程能力 (SWE-Bench): 38%,比不上o3-mini的61%。
“真实性”大PK:
在SimpleQA测试(考察模型事实准确性的测试)中,GPT-4.5表现出色:
- 准确率: 62.5%
- 幻觉率: 37.1%
相比之下,GPT-4o的幻觉率接近61%。这意味着,GPT-4.5在“真实性”方面有了显著提升,能给出更准确、可靠的回答。这可能就是Sam Altman所说的“不同类型的智能”的体现。
GPT-4.5:小步快跑,稳扎稳打
回顾GPT家族的进化史:
- GPT-1: 勉强能写出通顺的文字。
- GPT-2: 还只是个“玩具”。
- GPT-3: 开始变得有趣了。
- GPT-3.5: 首次达到可商用水平,催生了ChatGPT。
- GPT-4: 整体提升约20%,但改进比较微妙。
每个“0.5”版本,都意味着训练算力增加了10倍。
与GPT-4相比,GPT-4.5又是一次“全面小提升”。改进依然很微妙,但主要体现在“情商”相关的任务上:
- 世界知识更丰富
- 创造力提升
- 类比更准确
- 幽默感增强
- 理解能力更强
但要注意,这只是预训练模型,还没有加入推理能力。在数学、编程等需要推理的任务上,它不如o1。OpenAI可能会用强化学习进一步提升它的思考能力。
GPT-4.5:代码能力,褒贬不一
OpenAI用内部题库测试了GPT-4.5的编程能力,结果显示:
- 编程题得分: 79%,与deep research持平,但低于o3-mini的92%。
然而,在SWE-bench Verified测试中,GPT-4.5在软件工程能力上的提升却不尽如人意:
- 安全对齐前 (Pre-mitigation): 35%
- 安全对齐后 (Post-mitigation): 38%
这远低于其他模型,甚至比不上Claude 3.5/3.7的成绩。
此外,GPT-4.5在agentic tasks上的表现也不理想,得分仅为40%。
GPT-4.5:规模越大,提升越难?
不少网友表示,从基准测试来看,预训练似乎效果不大。
看看参数规模:
- GPT-4o: 约200B参数
- GPT-4: 1.76T参数
- GPT-4.5: 超过2T参数
但性能提升呢?仅仅1-3%。
这或许在暗示:单纯堆参数量的方法可能已经遇到瓶颈了。
GPT-4.5:贵!很贵!非常贵!
GPT-4.5的价格,绝对能让你“眼前一亮”:
- 输出价格: 是GPT-4o的15倍,是GPT-4o mini的250倍!
- 输入价格: 75美元/1M tokens,比GPT-4o贵30倍!
即使是缓存输入,也要37.5美元/1M tokens。
这价格,确实让人望而却步。
GPT-4.5:不看跑分,看“疗效”
正如一位网友所说,很多人只盯着基准测试的数据,却忽略了最重要的一点:AI如何与人互动,以及它给用户带来什么样的感受。
GPT-4.5,或许就是一次“情感升级”:
- 让AI互动更自然
- 更懂得共情
- 像一个有“情商”的助手
它的目标,不是在基准测试上拿高分,而是让AI变得更贴心,更懂人。
总结一下
- GPT-4.5是GPT-4o的改进版本,采用了多种技术,并引入了新的对齐方法。
- 主要提升:事实准确性更高,幻觉更少,对话能力增强,能读懂人类微妙的情绪和真实需求。
- 发布计划:ChatGPT Pro用户已可试用(研究预览版),下周起将陆续开放给更多用户。
- ChatGPT中的功能:支持搜索,可以上传文件和图片,能处理写作和编程任务,暂不支持语音、视频和屏幕共享。
- 开发者API:支持函数调用、结构化输出、流式传输、系统消息和视觉能力。
总的来说,GPT-4.5或许不是一款“性能怪兽”,但它在“情感”和“真实性”方面的提升,或许会给AI领域带来新的思考和方向。