
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分,对比之下,Anthropic的Claude完成全部500题。
OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分,对比之下,Anthropic的Claude完成全部500题。
从2018年至今,GPT系列模型已经来到第五代,如果让你回忆第一次使用GPT-1时的感受,可能是一种新奇却略显笨拙的震撼,就像这样: 当你问 GPT-1:麻醉状态下,你真的有意识吗?
GPT-6在路上了!奥特曼旧金山采访,坦言GPT-5发布「搞砸了」,下一代模型主打个性化记忆功能,不仅记住一个人偏好习惯,还能定制专属聊天语气。令人咋舌的是,OpenAI新一轮融资完成后,估值飙升5000亿美金。
微软前AI副总裁兼杰出科学家Sebastien Bubeck发文表示GPT-5 Pro从零攻克了数学论文中的未解区间,这个发现让他大受震撼。该发现引得众多大佬转发,OpenAI总裁认为AI或将加速数学研究。
自从 GPT-5 发布后,DeepSeek 创始人梁文锋就成了 AI 圈最「忙」的人。
奥特曼终于承认他搞砸了。 要说最近AI圈的大型翻车现场,GPT-5的发布绝对能排得上号。
GPT-5发布半月,却被连连吐槽。如今,一张基准与GPT-4对比基准测试图,证明了Scaling Law没有撞墙。七年间,从GPT-1到GPT-5十四个花式Prompt对决,实力差一目了然。
奥特曼称GPT-5「比人聪明」,但OpenAI首席运营官Lightcap澄清:这不是AGI。这只是能力过剩的冰山一角——我们仍有十年产品可建,模型越智能,融合越要精妙。GPT-5标志着从纯智商到反思能力的全面跃进。
没等到Deepseek R2,DeepSeek悄悄更新了V 3.1。官方群放出的消息就提了一点,上下文长度拓展至128K。128K也是GPT-4o这一代模型的处理Token的长度。因此一开始,鲸哥以为从V3升级到V 3.1,以为是不大的升级,鲸哥体验下来还有惊喜。
首个满分选手的出现,标志着AI医疗的又一个里程碑。 近日,美国初创公司OpenEvidence宣布,其开发的全新AI系统在美国医师执照考试(USMLE)中获得了100%的满分。