
浙大&通义全面评测智能体复杂任务规划能力,18主流大模型全不及格|ICLR2025
浙大&通义全面评测智能体复杂任务规划能力,18主流大模型全不及格|ICLR2025在处理这类复杂任务的过程中,大模型智能体将问题分解为可执行的工作流(Workflow)是关键的一步。然而,这一核心能力目前缺乏完善的评测基准。为解决上述问题,浙大通义联合发布WorfBench——一个涵盖多场景和复杂图结构工作流的统一基准,以及WorfEval——一套系统性评估协议,通过子序列和子图匹配算法精准量化大模型生成工作流的能力。
来自主题: AI技术研报
6525 点击 2025-02-08 13:19