
微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂
微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂作为大家的测评博主,我最近发现一个巨有意思的现象: 现在市面上大部分评估 Agent 的基准测试,倾向于考核“单项技能”,而非“综合任务”。比如,你让 AI 点份外卖,它能完成;但如果要求它策划一场涵盖预算、选址、菜单、宾客邀请与流程安排的晚宴,它很可能就原地就 G 了。
作为大家的测评博主,我最近发现一个巨有意思的现象: 现在市面上大部分评估 Agent 的基准测试,倾向于考核“单项技能”,而非“综合任务”。比如,你让 AI 点份外卖,它能完成;但如果要求它策划一场涵盖预算、选址、菜单、宾客邀请与流程安排的晚宴,它很可能就原地就 G 了。
果然只要坚持每天测Agent, 总能开出金的。Agent们好用但不便宜,有没有那种不烧积分,一句话就能定制多个智能体的Agent开发平台呢?今天就有了!
引言:越过AGI喧嚣,生产力正呼唤“成果交付型”AI
随着大模型能力的突破,“可调用工具的智能体”已经迅速从实验室概念走向应用落地,成为继大模型之后的又一爆发点。
你好研究僧,听说刚刚中了顶会,却还在愁怎么做Poster(学术海报)?
什么开源算法自称为DeepSeek-R1(-Zero) 框架的第一个复现?
刚刚,清华大模型团队 LeapLab 发布了一款面向 Agent 协作的开源框架:Cooragent。
我们是否还有另一个选择,可以让人类完美通关历史?来自密歇根和罗格斯大学的学者利用LLM对历史上的战争进行模拟推演结果,会是我们的参考答案吗?
日前,由美国罗格斯大学和密西根大学研究团队提出的 AI Agent——WarAgent 便成功模拟了包括第一次世界大战、第二次世界大战和中国古代战国时期战争在内的历史重大国际冲突。