6 月 23 日,美图公众号曾经发布了一条公告,宣布暂停已经举办了三届的产品发布会“美图影像节”,并表示正在开发一款面向图像&视频领域的 AI Agent,本来以为美图可能会在 8 月份推出新产品,给中期财报壮声势,但没想到,公告发布 20 天不到,这款名为 RoboNeo 的 AI Agent 就上线了,而且是直接面向所有用户免费开放。
今年 2 月,我们曾在《第一个吃到 DeepSeek 红利的AI图像产品出现了?》选题中,观察过,在推理模型上线后,很多图像产品都开始上线“自然语言改图”功能,但彼时的生图模型能力尚无法匹配场景要求,改图任务经常会变成按照用户的新要求再生一张,效果一般。
而转机发生在 3 月份 GPT-4o 解锁原生的图片编辑能力,以及 6 月底 FLUX.1 Kontext 模型开源。两者虽然技术细节有差别,但都强调生图模型可以同时理解文字和图像,并具备局部精准编辑、改善跨场景角色一致性等能力。
而模型能力的提升,也为图像领域 AI Agent 的面世提供了一些助力,比如之前就火过的 Lovart,再比如今日刚刚上线的美图 RoboNeo。(本期将对 RoboNeo 进行简单测试,未来几天我们将结合 Lovart 等其他同类产品推出更深度的选题,也希望感兴趣的读者能添加文末的作者微信,进行交流)
进入 RoboNeo 的主页就是一个聊天框,用户以自然语言提出想法或者需求后(无需自己写 Prompt),会生成图片,产品也支持用户上传自己的素材。
页面左侧是用户与 AI 交互的聊天框,而右侧则是自由画布,生成或修改后的图片会呈现在这里。用户可以在“画布”上自由地完成缩放、移动、编辑图层等操作,也可以编辑文字或自己上传图像/视频内容,选择图片后(如上图红框),用户还可以使用改图、扩图、增强、消除、抠图等编辑功能。
笔者以日常工作中常见的“做文章封面图”对 RoboNeo 进行了测试,总体效果令人满意。在生图的过程中,除了提需求,用户还可以给出参考图像,AI 会先“读图”(如下图),按照参考图像的线条、色彩、造型、风格等特点,总结出“优化点”,并应用于生图任务中。
在测试时,笔者先提出需求,做一个“双手托举爱心的机器人”,形成了上方的图像,第二轮,上传参考图,并要求“卡通风格”,得到下方的四张图。从效果来看,AI 确实一定程度上参考了风格,但是与原图的差别较大。
整体感受上,AI 理解需求的能力不错,背后的模型是有一定“审美” 能力,但是呈现出来的效果其实并不那么符合要求,需要更多轮的迭代。
生成的图像符合要求后,就进入了改图流程。用户可以使用 RoboNeo 提供的改图、扩图、增强、消除、抠图等基础编辑功能,也可以直接将心仪的图像“添加到聊天”,通过自然语言命令 AI 进行修改,改图时 AI 同样会进行审美分析,使输出的图像更加自然,比如笔者要求 AI 在机器人的胸前加上美图秀秀的 Logo,AI 就自动将方形的 Icon 变成了圆形,效果的确更加自然。
除此之外,笔者还测试了 AI 消除、添加图片等功能,也要求 AI 完成“变主体颜色”的任务,从主观体验来看,效果相当不错,成功率也很高,完成一个简单指令需要 15 秒左右,速度也可以接受。
美图 RoboNeo 完成的人物图像修改(上),
Lovart完成的发色变更效果(下),图中人物由AI生成
“做封面图”的任务,RoboNeo 做得不错,但并算不太出彩,而涉及到美图的强项——人像变美,RoboNeo 的表现就堪称惊艳了。笔者上传了一张 AI 生成的人像图,让 RoboNeo 完成“变头发颜色”、“变淡妆”、“涂口红”三项任务,从效果上看,将人物变成黑发之后,头发的纹理呈现得仍非常清晰,但反观 Lovart,人物头发的头发聚成了一坨,根本谈不上“纹理”。而在完成“变淡妆”、“涂口红”两项任务时,人物的脸也没有出现变形和失真。
但是,当测试更困难的“AI 换衣”任务时,RoboNeo 的表现则不太尽如人意,要么是直接无法生成,要么是能够生成,但没有遵循要求,衣褶的效果也不是非常的自然。
从我们第一时间的简单测试来看,RoboNeo 效果算是相当能打的,除了“AI 换衣”这种超高难度任务,RoboNeo 基本都能够完成我们的测试,且从主观体验上 AI 的要求遵循,以及生成图像的效果相当不错。视频方面,笔者测试了让 RoboNeo 去视频水印这样的简单任务,它也能够完成,而更详细的测试,我们将放在近期推出的详细选题中。
文章来自微信公众号 “ 白鲸出海 “,作者 张凯然
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0