AgentIF-OneDay 发布,评估全场景长时复杂任务 AgentIF-OneDay 发布,评估全场景长时复杂任务 关键词: AI新闻,AgentIF-OneDay,xbench,人工智能 随着大模型在单点推理上日益逼近 PhD 水平,Agent 领域迎来了新的分水岭:短程任务表现惊艳,长程任务却显乏力。为精准评估大模型的多模态理解与复杂问题解决能力,红杉中国在两周内连续发布两篇论文,旨在通过构建更科学的评估基准,预判技术演进的未来方向。 来自主题: AI技术研报 7940 点击 2026-01-22 10:06