一只 50 MB 的龙虾框架,和龙虾大战的下半场
一只 50 MB 的龙虾框架,和龙虾大战的下半场昨天在群里闲逛,发现观猹上新了一个龙虾测评专区。
昨天在群里闲逛,发现观猹上新了一个龙虾测评专区。
过去的一两年里,AI生成视频的浪潮几乎席卷了每一个内容平台。
UCSD团队推出AIBuildAI智能体,无需编程,仅用自然语言描述任务,即可自动设计、编码、训练、调参并优化AI模型,分工协作,端到端完成AI开发。在OpenAI MLE-Bench测试中,AIBuildAI以63.1%的获奖率位居第一,性能媲美人类专家,推动AI开发迈向全自动化新时代。
原来字节也有龙虾——Deer-Flow2超级智能体管理框架。开源发布后迅速登上了GitHub Trending榜首,已经收获了35.3k Star。Deer-Flow2采用模块化多智能体架构,这些智能体通过LangGraph实现协同合作。
现在的AI agent往往把长交互历史直接存起来,但很难高效复用。最朴素的方法直接从「原始记忆」里检索,但常常把模型淹没在冗长、低价值的上下文里。PlugMem把经验转化为结构化、可复用的知识,并提出一个任务无关(task-agnostic)的统一记忆模块,在多种Agent基准上提升性能,同时消耗更少。
2026年开年以来,Harness工程一词热度渐高,OpenAI在2月发布的一篇详细的内部实验报告标题中使用了此词,ThoughtWorks 首席科学家 Martin Fowler 在 X上也表示Harness工程是AI赋能软件开发的关键部分。
如今,一场由 AI 智能体驱动的变革正在发生。近日,来自香港科技大学、西北工业大学、清华大学等多家高校及研究机构的学者联合发布了遥感 AI 智能体领域系统综述。全文逾万字,首次为「遥感智能体」给出了严格定义,系统梳理了其架构、应用、数据集与未来方向。
养了这么久龙虾,是时候开始构建自己的 Skills 了。这时候,一篇来自 Anthropic 团队的 Skills 秘籍在外网广为流传,为想要构建 Skills 的开发者和智能体用户提供了绝佳的参考资料。
AI下半场拼的是数据。
在大模型时代,Tool-Use已经成为智能体能力的核心组成部分。