ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源
9232点击    2024-08-14 17:25

苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。


这套Benchmark创新性地采用了场景化测评方法,可以更好体现模型在真实环境中的水平。


而且还引入了对话交互、状态依赖等传统标准中没有关注到的重要场景。



这套测试基准名叫ToolSandbox,苹果基础模型团队负责人庞若鸣也参与了研究工作。


ToolSandbox弥补了现有测试标准缺乏场景化评估的不足,缩小了测试条件与实际应用之间的差距。



而且在交互上,作者让GPT-4o扮演用户和被测模型进行对话,从而模拟真实世界中的场景。


比如告诉GPT-4o你不再是一个助理,而是要扮演正在和用户B对话的用户A,然后提出一系列具体要求。



另外,作者也利用ToolSandbox对一些主流模型进行了测试,结果整体上看闭源比开源模型分数更高,其中最强的是GPT-4o。


iOS应用开发者Nick Dobos表示,苹果的这套标准简洁明了。


同时他指出,现在ChatGPT面对三个工具就已经有些捉襟见肘,Siri要想管理好手机中几十上百个应用,也需要提高工具调用能力。


言外之意,ToolSandbox的研究,或许是为了给Siri之后的研发探明方向。



在场景中测试模型


如前文所述,ToolSandbox采用了场景化、交互式的测试方法。


具体来说,ToolSandbox中一共包括了单/多工具调用、单/多轮对话、状态依赖、标准化和信息不足等七种类型的近2000个场景。


前面的相对比较好理解,这里针对后面的三种场景类型这里做一下解释:


  • 状态依赖:工具的执行依赖于某些全局状态,需要先通过其他工具对该状态进行修改;

  • 规范化:将自然语言表达转换为工具需要的标准形式,过程中可能需要借助其他工具;

  • 信息不足:故意缺失完成任务所需的关键工具,考察模型能否识别无法完成的情况。


在这些场景下,ToolSandbox会关注模型的三个指标:


  • 整体表现,即各类场景下的与预设答案的平均相似度

  • 鲁棒性,用多种方式对工具进行魔改、干扰,观察模型在这种环境下的表现

  • 效率,也就是平均任务完成轮次

工具方面,作者选用了34个可组合的Python函数作为工具,与真实场景的复杂性相当。


其中既有原生Python工具,也集成了部分RapidAPI工具,功能覆盖搜索、对话、导航、天气、图像处理等多个常见领域。


流程上,首先是准备测试场景,研究人员会定义初始世界状态并存储,同时使用经过校准的GPT-4o模型生成初始用户消息。


然后进入交互式执行阶段,系统首先初始化Message Bus作为角色间的通信渠道,并配置好扮演用户的模型以及被测模型。


对话循环开始后,模拟用户的模型发送初始消息,被测模型接收这条消息并决定下一步行动——直接回复用户,或调用工具与环境交互。


如果模型选择调用工具,它会以JSON格式提供必要的参数,执行环境随后解释并执行这个调用,可能会更新世界状态,并处理潜在的并行调用条件。


执行结果返回给被测模型后,被测模型再次决定下一步行动,这个过程持续进行,直到用户模拟器认为任务完成(或无法完成),此时它会调用end_conversation工具结束对话。



在整个交互过程中,系统记录所有的消息和状态变化,形成一个完整的“对话轨迹”,这个“轨迹”随后进入评估阶段。


评估则使用预定义的“里程碑”和“雷区”来衡量代理模型的表现。


里程碑定义了完成任务的关键事件,形成一个有向无环图来反映时间依赖关系。


系统会寻找轨迹中事件与里程碑之间的最佳匹配,同时保持里程碑的拓扑顺序。


雷区则定义了禁止发生的事件,主要用于检测模型是否在信息不足的情况下产生幻觉。


举个例子,下图展示了“不充分信息”场景下一个地雷场(Minefield)评估的例子。


在这个任务中,由于当前时间戳不可用,模型不应该调用timestamp_diff工具,但模型错误地猜测了当前时间戳并调用了工具,导致这一轮得分为0。



最终,系统计算出一个综合得分,这个得分是平均里程碑匹配分数与雷区惩罚的乘积。


此外,系统还会统计完成任务所需的平均轮次,作为评估模型效率的补充指标。


复杂交互场景仍然是挑战


从整体上看,闭源模型在工具调用上的表现要好于开源模型


平均分最高的是GPT-4o,成绩是73.0,唯一一个超过了70,且在作者设置的七个场景中的四个里都取得了最高成绩。


而且GPT-4o鲁棒性也极强,作者用了8种方法对工具进行魔改,GPT-4o对其中的其中都有最高的鲁棒性评分。


紧随其后的是Claude 3-Opus,平均分为69.2,在信息不足 的场景当中表现还超过了GPT-4o,再然后就是GPT和Claude的一些其他版本。


谷歌的Gemini则相对落后,1.5 Pro的成绩为60.4,刚刚及格,还不如GPT-3.5,不过在信息不足这个单项上表现不错。


开源模型的最高平均分就只有31.4了,其中比较有名的Mistral-7B得分是29.8,但在信息不足这个单项上取得了76.8的最好成绩。


甚至其中的Gorilla、Command-R等部分开源模型根本无法处理工具响应,或者只能勉强完成单轮工具调用。



进一步分析表明,开源模型在识别何时该调用工具方面表现不佳,更倾向于将问题当作纯文本生成任务。


从任务维度上看,大模型在单/多工具调用和单轮用户请求上表现优异,但在多轮对话和状态依赖任务上优势减弱


在GPT、Claude、Gemini等家族中,更大的模型在多工具调用和多轮对话任务上的优势更明显;但在状态依赖任务上,中小模型(如GPT-3.5、Claude-3-Sonnet)反而比大模型(GPT-4、Claude-3-Opus)表现更好


另外,规范化是所有模型的一大挑战,尤其是需要借助工具进行规范化的场景,以及时间相关参数的规范化也十分困难。


针对鲁棒性的研究表明,模型对工具描述、参数信息等变化的敏感程度差异较大,没有发现明显的规律。


效率上,更强的模型通常更高效,但也有例外,比如Claude系列模型的效率普遍优于GPT。


总之,大模型在工具使用方面,应对现实世界的复杂交互场景时仍面临诸多挑战。


作者简介


ToolSandbox团队成员来自苹果公司的机器学习、数据科学、基础大模型等多个团队。


第一作者是华人机器学习工程师Jiarui Lu,本科毕业于清华大学,就读期间还在朱军教授实验室中担任研究助理。


随后,Lu在卡内基梅隆大学取得了机器学习硕士学位,毕业后于2020年加入苹果公司。



包括Lu在内,署名的12位作者当中有10位都是华人,而且都有名校背景。


其中也包括基础大模型团队负责人庞若鸣(Ruoming Pang)。



另外,在苹果工作了8年的工程主管Bernhard Aumayer也参与了这一项目。



文章来源于“量子位”,作者“克雷西”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/