
什么都不做就能得分?智能体基准测试出现大问题
什么都不做就能得分?智能体基准测试出现大问题都在研究考生,考卷出问题了。
都在研究考生,考卷出问题了。
本来以为美图可能会在 8 月份推出新产品,给中期财报壮声势,但没想到,公告发布 20 天不到,这款名为 RoboNeo 的 AI Agent 就上线了,而且是直接面向所有用户免费开放。
在这篇文章中,它详细展示了如何构建一个有效的多智能体研究系统,这是一个架构,其中主代理(The Lead Agent)会生成和协调子代理(Subagents),以并行方式探索复杂查询,内容涵盖系统架构、提示工程以及评估方法等。
AI 终于可以当「第一作者」了。斯坦福大学近日宣布,将于 2025 年举办一个史无前例的学术会议 —— 科学 AI 智能体开放会议(Agents4Science 2025),全称 Open Conference of AI Agents for Science。 它的投稿要求堪称颠覆:第一作者必须是 AI。
现在的AI Agent在文档生成PPT或视频方面,要想像人一样,把文字、图片、讲解、音视频全都串起来讲清楚,还真不太行。
刚刚,全球首个通用生物医学AI智能体Biomni正式开源,相关代码及文件已经在Github发布,现已斩获超过700星,任何人都可以进行本地部署。
3月份,我在线下分享过办公软件的一个大趋势——未来,每个人的应用使用界面将只保留一个或极少数几个。现在,如果企业同时运行着20个软件,需要分别登录这20个应用进行相应的任务操作。而AI正在让使用界面和操作界面实现分离。以后,用户只需停留在一个高频应用界面,就能让Agent在背后完成绝大部分跨应用操作,人类只需等待执行结果。
距离 3 月凭借 “AI 智能体自主完成复杂任务” 的产品惊艳亮相仅四个月不到,AI Agent 公司 Manus 就因一场大规模裁员陷入舆论漩涡。近日, Manus 向多家媒体证实,公司对国内业务团队展开优化,120 名员工中,除 40 余名核心技术人员迁往新加坡总部,其余皆被裁员。
Listen Labs 由两位哈佛校友 Florian Juengermann 与 Alfred Wahlforss 在 2024 年底联合创立,并在 2025 年 4 月连获 Sequoia 领投的种子轮与 A 轮合计 2700 万美元融资,目标是打造一套能自动招募受访者、主持上千场多语访谈、即时归档并复用洞察的“AI 用户研究员”体系。
企业级Agent正在成为整个toB市场的共识。企业级智能体(toB AI Agent)正在成为全球最受资本追捧的赛道之一。