Video版的Deep Research来了?先浏览再定位后精读:精度提升token消耗反降58.3%
Video版的Deep Research来了?先浏览再定位后精读:精度提升token消耗反降58.3%在当前的AI Research浪潮中,Autonomous Agents已经改变了我们获取信息的方式——从被动接收到主动检索。
在当前的AI Research浪潮中,Autonomous Agents已经改变了我们获取信息的方式——从被动接收到主动检索。
Agent很好,但要做好工具调用能才能跑得通。
随着大模型在单点推理上日益逼近 PhD 水平,Agent 领域迎来了新的分水岭:短程任务表现惊艳,长程任务却显乏力。为精准评估大模型的多模态理解与复杂问题解决能力,红杉中国在两周内连续发布两篇论文,旨在通过构建更科学的评估基准,预判技术演进的未来方向。
Claude Skill 很火,甚至已经超越 MCP 了,如今各家的 cli 客户端基本也都支持,扣子、MiniMax 的 agent 产品也都上架了类 Skill 的产品。而且不仅仅是对普通用户有用,从开发者视角来看,通用 Agent 内核,只靠 Skills 设计,也能低成本创造具有通用 AI 智能上限的垂直 Agent 应用。
今天的 Agent,在一个独立的、短时间任务上的表现已经很不错了。
这两天都在研究 ralph,一个你睡觉时,都能不眠不休替你干需求、榨干任何 Coding Agent 的工具。
曾经那些将需求、设计与代码强行割裂的流水线,正在快速消融。
不讲武德!游戏圈这回真是被AI抄家了。(doge)
今天,MiniMax Agent 2.0 推出了 Desktop App,能操作本地文件、自动化网页操作。MiniMax Agent 2.0 这次更新了两个核心能力:一个是 Desktop App,一个是 Expert Agents。
当 DeepSeek 和 OpenAI 的核心突破者越来越年轻,传统的简历筛选正在失效。一位前阿里达摩院的研究员,试图用 Agent 编织一张能捕捉「下一个 Ilya」的网。