GPT-5 vs Claude Opus 4.1:编程能力测评
GPT-5 vs Claude Opus 4.1:编程能力测评OpenAI 发布了 GPT-5,我在公众号里、社群里、论坛里,很多地方都在刷屏一个消息:GPT-5 来了,而且在编程能力上“强得可怕”。
OpenAI 发布了 GPT-5,我在公众号里、社群里、论坛里,很多地方都在刷屏一个消息:GPT-5 来了,而且在编程能力上“强得可怕”。
从上周开始,我们就开始看到一些关于苹果在人工智能领域的长期规划开始浮出水面:从名为 AKI、力求在 iPhone 端侧打造「类 ChatGPT 搜索体验」的答案引擎,到本周目标指向 AI Agent 能力的「新 Siri」概念爆出。无数消息都指向了一个目标:「重生」。
人不能同时踩两个坑,但 OpenAI 做到了。 GPT-5 发布会上,OpenAI 因为一张比例失调的图表被全网群嘲。后续他们火速更新图表,目前已经调整好了比例。
大模型好不容易学会数r,结果换个字母就翻车了? 而且还是最新的GPT-5。 杜克大学教授Kieran Healy表示,自己让GPT-5数了数blueberry里有几个b,结果GPT-5斩钉截铁地回答3个。
奥特曼砍掉GPT-4o,防止用户沉迷;马斯克Grok 4限时免费,用「热辣模式」和拟人化角色留住用户。
「一只手有几根手指?」 这个看似简单的问题,强如 GPT-5 却并不能总是答对。 今天,CMU 博士生、英伟达 GEAR(通用具身智能体研究)团队成员 Tairan He(何泰然)向 GPT-5 询问了这个问题,结果模型回答错了。
GPT-oss放飞自我了?!居然出现了明显的幻觉行为。 在没有提示词的情况下,消耗超过30000个token凭空想出一个问题,还反复求解了5000多次?!
刚刚,全球最强开源医疗模型发布,来自中国。百川开源最新医疗推理大模型Baichuan-M2-32B,在OpenAI发布的Healthbench评测集上,超越其刚刚发布5天的开源模型gpt-oss-120b。
Tavily AI 的故事开始于一个开源项目。创始人 Rotem Weiss 在 2023 年创建了一个叫做 GPT Researcher 的开源工具,目的是让大语言模型能够获取实时的网络数据。当时 ChatGPT 还没有接入互联网搜索功能,这个小工具迅速在开发者社区中走红,收获了近 2 万个 GitHub stars。
这个周末,对OpenAI的抗诉,好像从未如此热闹过。 起因自然还是因为GPT-5。 OpenAI上了GPT-5当天,做了一个非常神奇的操作,他们只保留了GPT-5,然后把GPT-4.5、GPT-4o、o3什么的,全都砍掉了。