
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题
深度揭秘OpenAI如何让GPT-5「技术性」超越Claude:悄悄跳过最难的23道题OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分,对比之下,Anthropic的Claude完成全部500题。
OpenAI在SWE-bench Verified编程测试中仅完成477道题却公布74.9%高分,对比之下,Anthropic的Claude完成全部500题。
从2018年至今,GPT系列模型已经来到第五代,如果让你回忆第一次使用GPT-1时的感受,可能是一种新奇却略显笨拙的震撼,就像这样: 当你问 GPT-1:麻醉状态下,你真的有意识吗?
4 个月前,OpenAI 的 o3 模型凭借视觉推理能力模块和智能的进化,在 AI 创投圈子引起新一轮的震撼与海啸,解锁了一大批新的「套壳」创业机会。正如我们在《谢谢 OpenAI,谢谢 o3,新的「套壳」创业机会来了 | 附 12 个潜力方向》一文中预测的那样,VLM 确实带来了新的创业机会。
进入 2025 年,GUI Agent 赛道热度逐渐抬升 —— OpenAI 推出 Operator 并发布了 ChatGPT Agent,字节则发布了 UI-TARS-1.5 定位 GUI 开源方案。但大多数产品依然依赖本地执行,难以 24h 稳定运行。
别再迷信提示词魔法了,AI更像是需要“入职”的新同事。给足上下文,它就是你的专属思考伙伴。如果你正在寻求大家都在谈论的、AI许诺可带来的生产力提升,那就看看这篇指南吧。
企业在AI数据竞赛中面临数据抓取挑战,聚合器通过网页抓取或用户同意绕过限制,导致控制丧失、安全风险和品牌侵蚀。解决方案包括强化合同条款、API协议控制、数据泄露防护和主动维权,如Reddit诉Anthropic案启示合同作为AI数据管理框架。
GPT-6在路上了!奥特曼旧金山采访,坦言GPT-5发布「搞砸了」,下一代模型主打个性化记忆功能,不仅记住一个人偏好习惯,还能定制专属聊天语气。令人咋舌的是,OpenAI新一轮融资完成后,估值飙升5000亿美金。
硅谷各个模型公司在这个季度,开始分化到各个领域,除了 Google Gemini 和 OpenAI 还在做通用的模型;Anthropic 分化到 Coding、Agentic 的模型能力;Mira 的 Thinking Machines Lab 分化到多模态和下一代交互。
智东西8月20日报道,昨日,AI数据分析平台Databricks宣布,该公司已经签署了K轮融资的条款清单,预计将在现有投资者的支持下很快完成,这轮融资对Databricks的估值已经超过了1000亿美元(约合人民币7179.1亿元),估值与8个月前的620亿美元(约合人民币4451.0亿元)相比,上涨了超61%。
《智能涌现》独家获悉,钉钉近期成立了一个新业务线——行业专属模型,并作为独立团队存在,向钉钉CTO朱鸿汇报。 这也是钉钉创始人无招回归后,钉钉在AI战略推进中的重要动作。
AI时代的基建狂潮来了!Anthropic联合创始人Tom Brown直言:人类正踏上一场规模超越阿波罗登月、曼哈顿计划的算力竞赛。他,曾经线代只考70多,6月自学成才,加入OpenAI打造GPT-3,创立Anthropic……一路开挂堪比韦小宝,他正是AI时代最燃的注脚!
注意看,这个人形机器人在室内四处搜寻。 只因刚刚听到人类指令:请你走到足球的位置。
Meta在半年内第四次重组AI部门,将超级智能实验室拆分为四个团队,全面押注「超级智能」。新成立的TBD Lab由Alexandr Wang领衔,或放弃Llama 4并转向闭源模型,Meta开源旗帜动摇。Meta内部人心浮动,几家欢喜几家愁。
敏捷、优雅。 宇树用这两个词来形容自家最新人形机器人
开源赛道也是热闹了起来。 就在深夜,字节跳动 Seed 团队正式发布并开源了 Seed-OSS 系列模型,包含三个版本: Seed-OSS-36B-Base(含合成数据) Seed-OSS-36B-Base(不含合成数据) Seed-OSS-36B-Instruct(指令微调版)
微软前AI副总裁兼杰出科学家Sebastien Bubeck发文表示GPT-5 Pro从零攻克了数学论文中的未解区间,这个发现让他大受震撼。该发现引得众多大佬转发,OpenAI总裁认为AI或将加速数学研究。
自从 GPT-5 发布后,DeepSeek 创始人梁文锋就成了 AI 圈最「忙」的人。
AI Agent正在被要求处理越来越多复杂的任务。 但当它要不停地查资料、跳页面、筛选信息时,显存狂飙、算力吃紧的问题就来了。
要让视频生成模型真正成为模拟真实物理世界的「世界模型」,必须具备长时间生成并保留场景记忆的能力。然而,交互式长视频生成一直面临一个致命短板:缺乏稳定的场景记忆。镜头稍作移动再转回,眼前景物就可能「换了个世界」。
从 Sora 的惊艳亮相到多款高性能开源模型的诞生,视频生成在过去两年迎来爆发式进步,已能生成几十秒的高质量短片。然而,要想生成时长超过 1 分钟、内容与运动可控、风格统一的超长视频,仍面临巨大挑战。
您可能已经在产品里放进了问答、总结、甚至自动报表模块,但表格一上来,体验就变味了,这不奇怪。表格是二维、带结构、还经常跨表跨文,和纯文本完全不一样;项目作者在《Tabular Data Understanding with LLMs》里把这件事掰开揉碎,从输入表示到任务版图,再到评测与未来方向都梳理清楚了。
智东西8月20日报道,8月16日,Anthropic最新一期官方油管视频上线,三位AI研究员抽丝剥茧,深入探讨AI研究不应避开的一个关键“谜团”——大模型究竟是怎么思考的?
DeepSeek V3.1和V3相比,到底有什么不同?官方说的模模糊糊,就提到了上下文长度拓展至128K和支持多种张量格式,但别急,我们已经上手实测,为你奉上更多新鲜信息。
在经过长足的预热,并且见识到谷歌堪比阿勃维尔的保密程度之后,我们终于迎来了 2025 年谷歌的 Pixel 系列新品的正式发布。
AI换脸技术已能成功骗过部分人脸识别系统,用于实施金融诈骗(如盗号改法人、盗刷账户)。人脸识别存在安全漏洞,2D识别易被照片/视频破解,3D识别也可能被伪造数据欺骗。黑产已形成相关产业链,国家与技术公司正加强防御,但用户需提高警惕,谨慎使用人脸识别。
AI吃播视频合成虚幻食物内容,快速走红成为流量热点,用户通过其解压助眠获得成瘾体验。创作者利用平台激励和售卖提示词、课程实现盈利,而AI大厂如OpenAI持续亏损。模型如快手可灵商业化成功,从会员订阅中获利。
AI领域的“抢人”早就是个显性命题了,不过现在有愈演愈烈的架势。与海外相同,这场争夺是由大厂发起的,其中字节尤甚。单从最新发布的校招信息来看,字节今年的研发岗需求量增加了23%,其中算法、前端和客户端增幅最明显。在非研发招聘领域与产品相关的,像是产品经理、数据分析等方向,offer量翻了一倍。
自2024年5月谷歌推出AI Overviews(AI概览)功能以来,用户无需点击即可获取答案,这导致新闻网站和独立博主的点击量暴跌。数据显示,全球新闻网站的月自然访问量从2024年7月的23亿次骤降至2025年5月的不到17亿次
昨晚睡不着,我把四份最新AI纪要摊床上,越看越像四盘菜:Kimi那盘是精算师凉面,DeepSeek端上战略家佛跳墙,ChatGPT递来脱口秀炸酱面,Gemini则摆好外交官寿司。
8 月 20 日,在新加坡的 Stripe Tour 上与 Stripe CEO 对谈的时候,Manus 首席科学家季逸超(Peak)表示,Manus 从三月份推出至今已实现 9000 万美元的年化营收规模(revenue run rate),1 亿美元大关近在咫尺。