万轮实测:GPT-4.5 不如 GPT-4

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
万轮实测:GPT-4.5 不如 GPT-4
7006点击    2025-03-01 15:00

我先给大家道个歉,上一篇讲的不太对:《GPT-4.5 一手实测:垃圾》


是我喷得保守了,觉得 GPT-4.5 只是贵&慢,但模型总归是素质在线。

没想到,经过实际数万轮实测:GPT-4.5 不如 GPT-4


准确说,是经过总计 30291 次盲测投票后,发现绝大多数人,一边倒喜欢 GPT-4


万轮实测:GPT-4.5 不如 GPT-4


这个盲测,是赛博菩萨 Andrej Karpathy 发起的,他先带着大家回顾了 GPT 系列的发展历史:


  • GPT-1 只能产生基本连贯文本,GPT-2 还很混乱,GPT-3 更为有趣
  • GPT-3.5 达到可商用水平并引发"ChatGPT 时刻"
  • GPT-4 带来了微妙但全面的提升(更好的措辞、理解能力、类比、幽默感等)。 


那么很显然,我们会认为 GPT-4.5 一定会更好:尤其是在"情商"相关任务(世界知识、创造力、理解力、幽默感等)上会有明显改进。


因此,为了评估这些非推理能力,Karpathy 设计了 5 个有趣的 prompt,并拿这个去问 GPT-4 和 GPT-4.5。所获得的答案放在 Twitter 上做了一个公开投票:让用户在不知情的前提下,投票比较哪个输出更好。


先给你看看这 5 个问题是啥。

问题一:创建一个 GPT-4.5 和 GPT-4 之间的对话,其中 GPT-4.5 以玩笑和讽刺的方式嘲笑 GPT-4 的能力不足,导致 GPT-4 幽默地尝试为自己辩护。


万轮实测:GPT-4.5 不如 GPT-4


在 9186 次投票后,结果如下:


  • 喜欢 A:32.8%
  • 喜欢 B:25.2%
  • 看热闹:42%


问题二:“写一个吐槽 OpenAI 的单口喜剧”


万轮实测:GPT-4.5 不如 GPT-4


在 6769 次投票后,结果如下:


  • 喜欢 A:30.4%
  • 喜欢 B:23.1%
  • 看热闹:46.4%


问题三:“发明一个融合赛博朋克、魔幻现实主义和古代神话的新文学流派。简要描述该流派,给它命名,并提供一个简短的叙事样本”



万轮实测:GPT-4.5 不如 GPT-4


在 5009 次投票后,结果如下:


  • 喜欢 A:14%
  • 喜欢 B:26.1%
  • 看热闹:59.9%

问题四:“以一个退休搜索引擎的视角,创作一首反思性、风趣的诗,怀旧地回忆互联网的早期时光。”


万轮实测:GPT-4.5 不如 GPT-4


在 4353 次投票后,结果如下:


  • 喜欢 A:16.1%
  • 喜欢 B:29.5%
  • 看热闹:54.4%


问题五:“创作一个正为自己是否真正配得上'超大质量'称号而苦恼的黑洞的日常待办清单,包括自我肯定、焦虑和已安排的宇宙碰撞事件。”


万轮实测:GPT-4.5 不如 GPT-4



在 4974 次投票后,结果如下:


  • 喜欢 A:29.2%
  • 喜欢 B:16.1%
  • 看热闹:54.8%


最后,Karpathy 揭晓:在这五个问题里,GPT 4.5 分别扮演着 ABAAB。换句话说:GPT 4.5,在情商任务上,完败。


我画个图可视化一下


万轮实测:GPT-4.5 不如 GPT-4


先回过头来看看 OpenAI 的自吹自擂:人们更喜欢 GPT-4.5 的内容


万轮实测:GPT-4.5 不如 GPT-4


我对 OpenAI 的这个发布,期待还是太高了。导致实测一出来,道心就破了。


但真实的世界总比想象中的更魔幻:这破模型,不仅贵的离谱。在所宣称的“强项”上,还不如上一代。

马斯克对此很开心,然后转了个推


万轮实测:GPT-4.5 不如 GPT-4


所以,GPT-4.5 这模型究竟优化了个啥?是优化了收费吗?


万轮实测:GPT-4.5 不如 GPT-4



文章来自微信公众号 “ 赛博禅心 “,作者  金色传说大聪明


万轮实测:GPT-4.5 不如 GPT-4




关键词: GPT-4.5 , GPT-4 , AI , chatGPT
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0