任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角
5625点击    2026-01-06 16:16

BiCo是一种创新的AI视觉内容生成方法,能灵活组合图像和视频中的视觉概念,实现可控编辑。它通过分层绑定器、多样化与吸收机制、时间解耦策略等技术创新,解决了现有方法在概念提取和组合上的问题,让AI真正理解并融合视觉元素。BiCo在概念一致性、提示忠实度等方面表现优异,可应用于视频制作、艺术创作等领域,为创作者带来强大助力。


在AI视觉内容生成领域,如何将多种视觉概念无缝融合,一直是研究的热点。


现有的主流方法主要存在两大问题:


概念提取不准确:现有方法使用LoRA适配器或可学习嵌入来提取概念,但面对遮挡、时间变化等复杂场景时,难以准确分解概念,对于非物体概念(如风格、光照变化)的提取能力有限。


组合方式太局限:现有方法主要局限于「用视频中的动作来驱动图片中的主体」,无法灵活组合图像和视频中的各种属性(如视觉风格、光照变化等),虽然图像域已有灵活组合的探索,但任意图像+视频的通用组合可控的概念组合编辑仍是未解难题。


近日,来自香港科技大学、香港中文大学等机构的研究人员提出了一种名为BiCo(Bind & Compose)的创新方法,能够灵活组合任意数量的图像和视频,实现可控的对应元素概念组合编辑,创造出全新的创意内容,在概念一致性、提示忠实度和运动质量等方面均优于现有方法。


任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

项目主页:https://refkxh.github.io/BiCo_Webpage/

论文链接:https://arxiv.org/abs/2512.09824


还记得《无间道》中那个经典的屋顶对峙场景吗?


梁朝伟和刘德华站在屋顶,背后是香港的城市天际线——这个场景已经成为影史经典。


现在,想象一下:如果把这个经典场景中的角色换成哈士奇和杜宾犬,会是什么效果?


使用BiCo方法可以轻松实现:


输入:两张狗狗的照片(哈士奇杜宾犬)+ 《无间道》屋顶场景视频


输出:生成一段视频——哈士奇站在屋顶,杜宾犬出现在身后,背景是熟悉的城市天际线


这不是简单的「换脸」,而是AI真正理解了场景中的空间关系、人物位置、背景环境等复杂概念,并将来自不同来源的视觉元素完美融合。


任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角


这还只是BiCo能力的冰山一角,实际上,它可以做的远不止这些。


想象一下这样的场景,你有一张秋田犬的照片,还有一段人类在客厅玩游戏的视频。现在,你想让AI帮你生成一段视频:「一只穿着红色格子衬衫、戴着黑色耳机的秋田犬,兴奋地举起爪子,手持游戏手柄,沉浸在游戏中。」


任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角


或者,你有两张图片(我的世界风格的风景火山爆发)和一段蝴蝶在花上扇动翅膀的视频,想让AI将它们组合成一个创意视频。


任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角


这些看似「不可能」的创意组合,现在都可以通过BiCo轻松实现。


BiCo的三大创新

让AI真正「理解」视觉概念


BiCo方法的核心思想是:将视觉概念与文本提示词绑定,然后灵活组合来自不同来源的绑定token


具体来说,BiCo包含三大技术创新:


分层绑定器结构(Hierarchical Binder Structure)


问题如何准确分解复杂的视觉概念?


在Diffusion Transformer(DiT)的交叉注意力机制中,设计分层绑定器结构;


将视觉概念编码到对应的文本token中;


实现隐式分解,无需显式的掩码输入。


效果当组合来自多个来源的概念时,目标提示中的概念token会通过对应的绑定器传递,从而整合视觉特征,实现基于文本条件的概念组合。


多样化与吸收机制(Diversify-and-Absorb Mechanism, DAM)


问题如何提高concept-token绑定的准确性?


多样化:在训练时对单样本提示进行多样化处理,同时保留关键概念


吸收:引入额外的吸收令牌,在训练过程中消除与概念无关的细节影响


效果通过这一机制,BiCo能够更精确地绑定概念,避免无关信息的干扰。


时间解耦策略(Temporal Disentanglement Strategy, TDS)


问题:如何增强图像和视频概念之间的兼容性?


将视频概念的训练过程解耦为两个阶段


第一阶段:在单个帧上训练绑定器,不涉及时间概念(与图像概念训练设置一致)


第二阶段:在视频上训练绑定器,采用双分支绑定器结构进行时间建模,同时继承第一阶段的知识


效果通过分阶段训练,BiCo能够更好地处理图像和视频概念的组合,提升兼容性。


任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

BiCo模型整体架构


任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

BiCo分层绑定器结构结构;BiCo多样化与吸收机制


实验结果

全面超越现有方法


在实验评估中,BiCo在多个维度上均优于现有方法:


定量结果


概念一致性显著提升,提示忠实度明显改善,运动质量更加自然流畅。


任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角


定性结果


案例1:动作迁移(图像+视频)


输入:一张小猴子的图片 + 一段松鼠在阳光下吃东西的视频


输出:生成一只小猴子在阳光下吃东西的视频,完美结合了猴子的外观和松鼠的动作


任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角


可控编辑精确指定使用猴子的外观概念和松鼠的动作概念进行组合


案例2:创意风格迁移(图像+视频)


输入:一张线条艺术风格的大象图片 + 一段大象行走的视频


输出:生成线条艺术风格的大象行走视频,成功融合了艺术风格和运动


可控编辑精确控制风格概念和运动概念的组合方式


任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

生成线稿风格大象视频,BiCo与之前方法的对比结果


案例3:多概念组合(多图像+视频)


输入:三张图片(快乐的秋田犬时尚服装套装蓝白条纹帽子)+ 一段女子坐在木制长椅上读书的视频


输出:生成秋田犬穿着服装套装和帽子,坐在木制长椅上读书的视频,完美融合了来自三个图像源的不同概念元素(主体、服装、配饰)和视频场景(动作和场景)


可控编辑灵活组合来自多个图像源的不同概念元素(主体外观、服装、配饰)和视频概念(动作、场景),实现复杂的多概念编辑


任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角


案例4:多视频组合


输入:两段视频(弹吉他的男子穿绿色西装举小号的男子


输出:生成弹吉他的男子与举小号的男子同时出现的视频,将两个视频中的不同人物和动作进行组合


可控编辑用户可以精确指定要从每个视频中提取和组合的概念元素(人物外观、动作、场景等)


任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角


与可灵O1对比:BiCo在概念组合上的显著优势


为了更直观地展示BiCo的优势,我们将其与业界领先的视频生成模型可灵O1进行了比较。


将《我的世界》风格、火山爆发与蝴蝶振翅三个概念,融合成一段创意视频


任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

输入的视频与图片概念


任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

BiCo的生成结果


任意图像+视频=无限创意!港科大BiCo:AI视频进入组合时代,随意换角

可灵O1的生成结果


概念一致性:BiCo更精准


BiCo:能够保持生成结果中蝴蝶栖息在花朵上的姿势状态一致,花朵始终存在,蝴蝶与花朵的关系保持稳定


可灵O1花朵直接消失了,蝴蝶变成了在空中飞行的状态,完全偏离了输入视频中的概念


概念泄漏控制:BiCo更严格


BiCo火山喷发状态与输入图片完全相同,精确保持了输入图像中的喷发特征,没有引入额外的无关元素


可灵O1:存在概念泄漏,火山喷发状态与输入图片不一致,出现了输入中不存在的元素


风格一致性:BiCo更忠实


BiCo像素艺术风格的流体效果(流动的岩浆)表现完美,成功将像素艺术风格应用到动态的岩浆流动中,保持了整体风格的统一


可灵O1岩浆没有变成像素艺术风格,风格迁移失败,导致生成的视频中风格不一致


通过这个对比案例,我们可以清晰地看到BiCo在以下三个关键维度上的显著优势:


1. 可控性更强BiCo能够精确控制要组合的概念元素,实现保持概念高度一致性的组合,用户可以精确指定要保留和组合的视觉特征


2. 概念一致性更高BiCo能够准确保持输入概念的状态和关系,避免概念丢失或改变(如蝴蝶与花朵的关系、火山喷发状态)


3. 提示词忠实度更好BiCo能够忠实执行用户的组合意图,在复杂多概念组合场景中,仍然能够准确地将不同来源的概念按照提示词要求进行组合(如像素艺术风格的完整应用)


应用场景

为创作者打开新世界


BiCo支持任意数量的图像和视频输入,实现可控的概念组合编辑,应用场景非常广泛:


视频内容创作


电影制作:将任意多个场景的元素进行可控组合,创造新的视觉效果


广告创意:快速组合多个创意素材,生成个性化广告视频


短视频:为内容创作者提供强大的多素材组合工具,实现精确的概念编辑


艺术创作


风格迁移:将多个艺术风格与真实场景进行可控组合


概念设计:快速组合多个概念元素,可视化创意想法


动画制作:灵活组合多个动画元素,简化动画制作流程


技术优势

为什么BiCo更强大?


灵活性


支持任意数量的图像和视频进行组合(图像+图像、图像+视频、视频+视频、多图像+多视频等)


可以组合物体、风格、动作、光照等各种视觉概念


实现可控的对应元素概念组合编辑,用户可以精确指定要组合的概念元素


准确性


通过分层绑定器和DAM机制,实现更精确的概念提取


避免概念泄漏和无关信息干扰


兼容性


通过TDS策略,增强图像和视频概念之间的兼容性


更自然的组合效果


易用性


单样本学习:只需一张图片或一段视频即可进行概念绑定


无需掩码:不需要手动标注,降低使用门槛


灵活组合:支持任意数量的输入源,实现多概念的可控组合


结语

AI视觉创意的未来已来


BiCo方法的提出,标志着AI视觉内容生成领域的一个重要突破。它不仅解决了现有方法在概念提取和组合方面的局限,更为视觉内容创作提供了新的工具和思路。


随着技术的不断发展和完善,我们有理由相信,AI将在视觉创意领域发挥越来越重要的作用,为创作者打开无限可能。


参考资料:

https://refkxh.github.io/BiCo_Webpage/


文章来自于“新智元”,作者 “LRST”。

关键词: AI新闻 , 模型训练 , BiCo , AI视频
AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

2
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0