从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐
从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐当前,大型语言模型(LLM)在软件工程领域的应用日新月异,尤其是在自动修复 Bug 方面,以 SWE-bench 为代表的基准测试展示了 AI 惊人的潜力。然而,软件开发远不止于修 Bug,功能开发与迭代才是日常工作的重头戏。
搜索
当前,大型语言模型(LLM)在软件工程领域的应用日新月异,尤其是在自动修复 Bug 方面,以 SWE-bench 为代表的基准测试展示了 AI 惊人的潜力。然而,软件开发远不止于修 Bug,功能开发与迭代才是日常工作的重头戏。
作为一款全新的「融合模型」,GPT-5将博士级的推理能力带给了所有OpenAI用户。它不仅在编程、写作等方面实现了巨大飞跃,更是在准确性上获得了史诗级提升。它的问世,标志着AI竞争已从模型发布转向真正的「智能发布」。
智东西8月6日消息,据外媒The Information报道,知情人士透露,AI视频初创企业Runway正与投资者洽谈约5亿美元(约合人民币36亿元)的融资,投前估值不低于50亿美元(约合人民币359亿元),较上一轮融资时的估值30亿美元(约合人民币215亿元)高出67%。
对大公司来说,钱不值钱,最值钱的是时间。本期播客,我们邀请在硅谷专注 AI 企业级应用、医疗和工业自动化早期投资的风险投资机构 Fusion Fund 创始合伙人张璐,梳理上半年硅谷的科技大事件,以及从 Windsurf 收购案入手,分析这件事折射出了硅谷的初创生态在发生的变化,以及从 Meta 到 Google、再到苹果、亚马逊、微软,上半年的一些关键动作意味着哪些战略选择。
GPT5更新了,简单测了几个Case。GPT5更新了,简单测了几个Case。山姆真的是营销大师。从前些天透漏的信息看,GPT5 牛逼的不行了。但实际呢?!至少在我今天的测试Case中,没一个比 Claude 4 sonnet 好!
朋友,你只需输入下方的提示词。 给孩子解释下他是怎么来的,用宫崎骏的风格输出 一个儿童绘本就造好了。 有封面,能定制配图风格,有暖心的小故事。 甚至只花了不到 1 分钟。
大量工作在争夺用户注意力上,不少不错的细节提升,但没有大的惊喜,甚至一度有些好笑,“AGI”还早,肉搏时代开启了。
只靠说话和AI眼镜互动,确实有点不方便。现在新玩法来了!数字替身帮你“隔空抓物”,混合现实即时选择现实世界的物体作为上下文。
过去三十年,互联网经历了从静态网页到智能推荐的深刻演变。如今,我们正站在互联网的另一个重大转折点上。 这一转折,来自一种全新的范式设想 —— Agentic Web,一个由 AI 智能体组成的、目标导向型的互联网系统。在这个新框架中,用户不再手动浏览网页、点击按钮,而是通过自然语言向智能体发出一个目标,AI 会自主规划、搜索、调用服务、协调其他智能体,最终完成复杂任务。
我非常不理解为什么有AI创业者选择播客赛道。 音频播客是一个非常小众的市场。小宇宙日活只有几百万,基本只有一线城市白领收听。就算是海外市场,Spotify都不能靠播客盈利,播客只会拖累其利润。 AI播客更是一个纯粹的、非常伪的伪命题。