
手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布
手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布多模态大模型 (MLLM) 驱动的 OS 智能体在单屏动作落实(如 ScreenSpot)、短链操作任务(如 AndroidControl)上展现出突出的表现,标志着端侧任务自动化的初步成熟。
多模态大模型 (MLLM) 驱动的 OS 智能体在单屏动作落实(如 ScreenSpot)、短链操作任务(如 AndroidControl)上展现出突出的表现,标志着端侧任务自动化的初步成熟。
一觉醒来发现扣子直接开源了!以后本地部署一个扣子不再是梦!而且采用的是 Apache 2.0 许可证,支持商用!这次开源的是扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)。
那是 1964 年,德国南部的小城爱尔兰根,阳光洒落在西门子数据中心的窗格上,一台名为 Zuse Graphomat Z64 的绘图仪静静运转着。 它并不懂何为艺术,却在工业数学家 Georg Nees 的指令下,画出了世界上最早一批由计算机生成的图像。
近日,来自 OPPO、耶鲁大学、斯坦福大学、威斯康星大学麦迪逊分校、北卡罗来纳大学教堂山分校等多家机构的研究团队联合发布了 Agent KB 框架。这项工作通过构建一个经验池并且通过两阶段的检索机制实现了 AI Agent 之间的有效经验共享。Agent KB 通过层级化的经验检索,让智能体能够从其他任务的成功经验中学习,显著提升了复杂推理和问题解决能力。
今天带来 Myshell ShellAgent 2.0 的测试和介绍。 发现 Myshell 上了一个 ShellAgent 2.0 的能力,只需要提示词就能生成一个 Agent 应用。他们这个有意思的点是,没有复杂的前端页面都会在一个 Chatbot 里构建类似的交互,这就摆脱了构建前端的复杂流程降低了错误率,Agent 只需要管理工具之间的交互就可以。
你有没有想过,为什么那些看起来无所不能的 AI agent,在真实工作环境中却总是显得如此笨拙?我们花费数百小时调试提示词、完善指令,但这些智能系统依然无法像人类员工那样从经验中学习和成长。它们不会从错误中汲取教训,也不会在重复性任务中变得更加熟练。这个根本性问题,正是 Composio 刚刚完成 2500 万美元 A 轮融资要解决的核心挑战。
硅谷 AI 投资人 Elad Gil 昨天发布了自己对 AI 领域投资的总结回顾与预测。在他看来,过去四年 AI 经历了从 “技术迷雾”到“商业马拉松” 的变化:随着模型能力的不断提升,过去 12 个月里一系列 AI 应用落地的细分场景在得到验证,头部公司浮现,一定程度上,未来 1-2 年的市场格局初定,AI 应用层正进入收敛周期:
前沿模型越来越多地被训练和部署为自主智能体。一个安全担忧是,AI智能体可能会隐秘地追求与人类目标不一致的目标,隐藏其真实能力和目的——这也被称为AI欺骗或谋划行为(AI deception or scheming)。
AI 解放生产力的奇点,可能就在 2025 年。「2025 年会成为智能体爆发的一年」这一判断基本已经成为了行业内的共识。这一点从第三方机构 aicpb AI 产品榜的变化就可以看出。
自 ChatGPT 引爆公众认知以来,AI 开始渗透进写作、编程、设计等多个应用场景,推动人类进入“智能体(Agent)”时代。曾经遥不可及的自动化交互,如今正在成为现实。在这背后,一场关于基础设施的重构也悄然展开——从模型能力到部署体验,谁能打通智能 Agent 的“最后一公里”,谁就掌握了这场范式变革的主动权。