ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24
2061点击    2024-11-05 15:28

视觉语言模型(如 GPT-4o、DALL-E 3)通常拥有数十亿参数,且模型权重不公开,使得传统的白盒优化方法(如反向传播)难以实施。


那么,有没有更轻松的优化方法呢?


就在最近,卡内基梅隆大学(CMU)的研究团队对于这个问题提出了一种创新的“黑盒优化”策略——


通过大语言模型自动调整自然语言提示词,使视觉语言模型在文生图、视觉识别等多个下游任务中获得更好的表现。


这一方法不仅无需触及模型内部参数,还大幅提升了优化的灵活性与速度,让用户即使没有技术背景也能轻松提升模型性能。


该研究已被 CVPR 2024 接收。



如何做到的?


大多数视觉语言模型(如 DALL-E 3、GPT-4o 等)并未公开模型权重或特征嵌入,导致传统依赖反向传播的优化方式不再适用。


不过,这些模型通常向用户开放了自然语言接口,使得通过优化提示词来提升模型表现成为可能。


然而,传统的提示词工程严重依赖工程师的经验和先验知识。


例如,为提升 CLIP 模型的视觉识别效果,OpenAI 花费了一年时间收集了几十种有效的提示词模板(如 “A good photo of a [class]”)。


同样,在使用DALL-E 3和Stable Diffusion等文生图模型时,用户往往也需掌握大量提示词技巧才能生成满意的结果。


那么,有没有替代人类提示词工程师的方法?


有的 CMU 团队提出了一种新策略:用 ChatGPT 等大语言模型自动优化提示词。


像提示词工程师利用反馈改进提示词一样,CMU 的方法将正负反馈交给 ChatGPT,以更高效地调整提示词,具体过程如图所示:



这种优化过程类似于机器学习中的“爬山法”(hill-climbing)策略,不同之处在于大语言模型可以自动分析提示词表现,从正负反馈中找到最优改进方向。


研究团队利用这一特性来更高效地优化提示词。这个过程可以用以下步骤概括:



  1. 提示词初始化:收集一批未经优化的初始提示词。
  2. 提示词排序:对当前提示词进行表现评分,保留高分提示词,替换低分提示词。
  3. 生成新提示词:通过大语言模型,根据提示词的表现生成新的候选提示词。


经过多轮迭代,最终返回得分最高的提示词作为优化结果。


实验结果


通过这一方法,CMU 团队在无需人类提示工程师参与的情况下,在多个小样本视觉识别数据集上取得了最佳准确性,甚至超越了传统的白盒提示词优化方法(如 CoOp)。



此外,该方法在无需了解数据集内容的前提下,自动捕捉到了下游任务的视觉特性并将其融入提示词中,取得了更好的效果。


例如,在食物识别任务中,ChatGPT 自动将提示词调整为识别“多样化的美食和原料”,从而提升了模型的表现。



研究团队还证明了,通过 ChatGPT 黑盒优化得到的提示词不仅适用于单一模型架构,还能在不同模型架构(如 ResNet 和 ViT)之间泛化,并且在多种模型上表现优于白盒优化得到的提示词。



这一系列实验证明,大语言模型能够从提示词的性能反馈中提取出隐含的“梯度”方向,从而实现无需反向传播的模型优化。


在文生图任务中的应用


CMU 团队进一步探索了该方法在生成任务中的应用潜力。


在文本到图像生成(T2I)任务中,ChatGPT 能够自动优化提示词,从而生成更符合用户需求的高质量图像。


例如,对于输入描述“一个动物注视着一个人”,系统可以通过逐步优化提示词来提升生成图像的准确性。



此外,这一方法还适用于提示反演(Prompt Inversion)


提示反演是一种根据现有图像反推生成模型输入提示词的技术,简单来说,就是通过图像生成能够再现其特征的文本描述(提示词)。



研究团队在复杂的文本到图像任务上进行了测试,结果表明这一方法仅需三轮提示词优化,就能显著提高用户的满意度。



此外,研究团队还指出,提示反演可以帮助用户快速定制特定的图像效果,例如“让这只狗变成站立姿势”或“让背景变成夜景”,从而生成符合特定需求的图像。



CMU 团队表示,提出的黑盒优化范式突破了传统模型调优的限制,不仅在图像分类和生成任务中表现出色,还展示了广泛的应用潜力。


这一方法无需访问模型权重,仅通过“文本梯度”实现精准优化,具备强大的扩展性。


未来,黑盒优化有望应用于实时监控、自动驾驶、智能医疗等复杂动态场景,为多模态模型的调优带来更加灵活高效的解决方案。


团队介绍


团队的一作刘士弘(Shihong Liu)是卡内基梅隆大学的研究生毕业生,曾任机器人研究所研究员。


目前在 北美Amazon 工作,负责大型分布式系统的计算和大语言模型驱动的 AI Agent 的开发。


刘士弘(Shihong Liu)


团队的共同一作林之秋(Zhiqiu Lin)是卡内基梅隆大学的博士研究生,专注于视觉-语言大模型的自动评估与优化。


Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等顶级会议上发表了十数篇论文,并曾荣获最佳论文提名和最佳短论文奖等。


林之秋(Zhiqiu Lin)


Deva Ramanan教授是计算机视觉领域的国际知名学者,现任卡内基梅隆大学教授。



Deva Ramanan教授


他的研究涵盖计算机视觉、机器学习和人工智能领域,曾获得多项顶级学术荣誉,包括2009年的David Marr奖、2010年的PASCAL VOC终身成就奖、2012年的IEEE PAMI青年研究员奖、2012年《大众科学》评选的“十位杰出科学家”之一、2013年美国国家科学院Kavli Fellow、2018年和2024年的Longuet-Higgins奖,以及因其代表性工作(如COCO数据集)获得的Koenderink奖。


此外,他的论文在CVPR、ECCV和ICCV上多次获得最佳论文提名及荣誉奖。他的研究成果对视觉识别、自动驾驶、和人机交互等应用产生了深远影响,是该领域极具影响力的科学家之一。


 CVPR’24论文链接: 

https://arxiv.org/abs/2309.05950


 论文代码: 

https://github.com/shihongl1998/LLM-as-a-blackbox-optimizer


 项目网站: 

https://llm-can-optimize-vlm.github.io


文章来自于微信公众号 “量子位”,作者“林之秋”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0