和任何人,去任何地方!复旦大学携手阶跃星辰打破 “复制粘贴” 魔咒,重磅推出全新 AI 合照生成模型 WithAnyone —— 只需上传照片,就能一键生成自然、真实、毫无违和感的 AI 合照!

WithAnyone 是一种个性化 AI 合照生成方法:给定一个人的一张照片,WithAnyone 可以生成 ta 的各种角度、各种表情;给定几个人的各一张照片,WithAnyone 可以让他们同框,生成一张毫无违和感的 AI 合照。
以往的方法,无论是现象级的 InstantID,还是火出圈的 PuLID,都面临着一个困境:给它什么样的表情、角度,它就生成什么表情、角度,做不到一点变化。

而 WithAnyone 打破了这一魔咒!真的可以拿 ID 一致性与 ID 可控性双料冠军。

空口无凭,且看效果!

还有多人合照:

真可谓是相当惊艳了!
我们也试了一下更多人的场景:


三姐妹戴着同款墨镜其乐融融,三兄弟西装革履装酷耍帅。
过去的模型想做到生成得像,全靠 “复制粘贴 “,参考图的表情神态、头部姿态,照搬到生成图上,没有一点变化。而 WithAnyone 生成的场景真正地做到了人物一致的同时,大伙和谐同框!
当前 ComfyUI 版本已经上线,工作流也有提供,可以轻松部署!

正所谓发现问题,比解决问题更重要。

WithAnyone 的研究团队正是发现了这一问题:AI 人像生成,生成得越来越像,甚至过于地像了 — 相似度甚至远远大于同一个人的不同真实照片!正所谓过犹不及,这便是他们要解决的问题。
要量化这个问题,团队首先提出了 MultiID-Bench,与配套的 “复制粘贴 “指标。

他们把 “生成结果到参考输入的距离” 减去 “生成结果到目标输出的距离” 作为复制粘贴的衡量,并发现当前的各种方法,落入了一个越像,就越复制粘贴的魔咒:他们清晰地形成了一条拟合直线。

为了突破这个魔咒,研究团队直面最本质的问题:数据与训练。
以往的 AI 个性化生成,由于同一个人的多视角数据缺乏,往往采用 “重建” 的训练方案:参考输入图,也是监督目标。而 WithAnyone 的研究团队则收集了一个五十万张多人合照,并为每张上的每个人,配了上百张不同角度、表情、光照的参考图!另外还有百万张未配对的合照,也一同并入了训练数据。
这次的开源真的很重磅,模型、Benchmark、数据集,三花聚鼎。

有了如此强悍的训练数据,便可定制化训练流程。研究团队先是通过传统重建训练,训练出强大的基本能力,再通过成对数据训练,与高质量数据微调,最终得到现在 WithAnyone 模型。
当然,模型结构和训练目标上都有重大创新,我们总结了一下要点:
WithAnyone 已经全面开源。团队提供了:代码、模型权重、数据集样例与评测基准(MultiID-Bench) 的公开链接(论文内 project page / Hugging Face / GitHub),便于社区复现与扩展。还有 ComfyUI 支持,期待社区开发出更多玩法!
WithAnyone 不只是一次技术突破,更是一次让 AI “懂得同框” 的尝试,希望这项技术能让每一张 AI 合照都充满温度与故事。从今天起,和任何人,去任何地方 —— 用 WithAnyone,拍下属于你的合照!
文章来自于“机器之心”,作者 “机器之心”。
【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!
项目地址:https://github.com/coze-dev/coze-studio
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner