
Agent还没到卷成本的时候
Agent还没到卷成本的时候4月18日~19日,由《中国企业家》杂志社主办的2025(第十七届)商界木兰年会在北京举办。在“开幕对话”环节, 数坤科技创始人、CEO马春娥作为主理人, 与明势创投创始合伙人黄明明、中科闻歌董事长王磊、零一万物联合创始人马杰、腾讯设计杰出专家陈妍,围绕“大模型迭代”进行了访谈对话。
4月18日~19日,由《中国企业家》杂志社主办的2025(第十七届)商界木兰年会在北京举办。在“开幕对话”环节, 数坤科技创始人、CEO马春娥作为主理人, 与明势创投创始合伙人黄明明、中科闻歌董事长王磊、零一万物联合创始人马杰、腾讯设计杰出专家陈妍,围绕“大模型迭代”进行了访谈对话。
4 月 18 日晚间,字节跳动扣子空间开启内测,定位通用 Agent。与其他类似产品如 manus 一样,扣子空间采用了邀请码制。平台上,用户可以选择精通各项技能的「通用实习生」,也可以选择行业的「领域专家」,通过与 AI 的互动完成工作任务。
谷歌 Gemma 3 上线刚刚过去一个月,现在又出新版本了。
AI智商再创新高!OpenAI o3以惊人的136分刷新门萨智商测试纪录,超越不久前登顶的Gemini 2.5 Pro。更令人瞩目的是其强大的图像理解能力:仅凭一张无EXIF信息的菜单或风景照,o3就能精准推理并反向定位拍摄地点,引发了用AI玩「照片寻址(GeoGuessr)」的新热潮。
Two Heads are Better Than One"(两个脑袋比一个好/双Agent更优)源自英语中的一句古老谚语。MAS-TTS框架的研究者将这一朴素智慧应用到LLM中,创造性地让多个智能体协同工作,如同专家智囊团。
公考行测中的逻辑推理题,是不少考生的噩梦,这次,CMU团队就此为基础,打造了一套逻辑谜题挑战。实测后发现,o1、Gemini-2.5 Pro、Claude-3.7-Sonnet这些顶尖大模型全部惨败!最强的AI正确率也只有57.5%,而人类TOP选手却能接近满分。
经历了 2025 年初 DeepSeek、Manus 们的冲击,大厂正在重新明确自己下一步的战略。
谷歌发布首款混合推理模型Gemini 2.5 Flash,引入了革命性「思考预算」,可灵活控制推理深度,性能一举击败Claude 3.7,比肩o4-mini。而且,关闭思考模式成本直降600%。
悬疑小说的最后一页,隐藏着罪犯的真相。《逆转裁判》的法庭上,真凶在谎言中露出破绽。UCSD研究团队以这款经典游戏为舞台,o1、Gemini 2.5 Pro等模型化身「侦探」,测试AI的推理极限。
高德地图正式宣布,推出全球首个基于地图的AI导航智能体(NaviAgent),应用创新技术理念和架构,推动导航这一历史悠久的服务,由传统出行工具,向“会思考、能预判、有温度”的智能出行伙伴蜕变。