AI资讯新闻榜单内容搜索-扩散模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 扩散模型
CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型

CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型

CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型

360 度场景生成是计算机视觉的重要任务,主流方法主要可分为两类,一类利用图像扩散模型分别生成 360 度场景的多个视角。由于图像扩散模型缺乏场景全局结构的先验知识,这类方法无法有效生成多样的 360 度视角,导致场景内主要的目标被多次重复生成,如图 1 的床和雕塑。

来自主题: AI技术研报
9375 点击    2024-06-11 10:02
腾讯:终于补齐了Muse系列数字人开源框架,感谢阿里!

腾讯:终于补齐了Muse系列数字人开源框架,感谢阿里!

腾讯:终于补齐了Muse系列数字人开源框架,感谢阿里!

由腾讯音乐娱乐的Lyra Lab团队开发的Muse 开源系列项目,它的最后一个模块终于来了——MusePose !发布后却真诚致谢阿里的项目?

来自主题: AI资讯
9845 点击    2024-06-09 18:16
ICML 2024 Oral|外部引导的深度聚类新范式

ICML 2024 Oral|外部引导的深度聚类新范式

ICML 2024 Oral|外部引导的深度聚类新范式

怎样才能将可爱又迷人的柯基与柴犬的图像进行区分?

来自主题: AI技术研报
8719 点击    2024-06-07 10:56
天大、南大发布LPSNet:无透镜成像下的人体三维姿态与形状估计 | CVPR 2024

天大、南大发布LPSNet:无透镜成像下的人体三维姿态与形状估计 | CVPR 2024

天大、南大发布LPSNet:无透镜成像下的人体三维姿态与形状估计 | CVPR 2024

天津大学与南京大学联合团队在CVPR 2024上发表了LPSNet项目,提出了一种端到端的无透镜成像下的3D人体姿态和形状估计框架,通过多尺度无透镜特征解码器和双头辅助监督机制,直接从编码后的无透镜成像数据中提取特征并提高姿态估计的准确度。

来自主题: AI技术研报
9082 点击    2024-06-06 11:29
把整个地球装进神经网络,北航团队推出全球遥感图像生成模型

把整个地球装进神经网络,北航团队推出全球遥感图像生成模型

把整个地球装进神经网络,北航团队推出全球遥感图像生成模型

北航的研究团队,用扩散模型“复刻”了一个地球? 在全球的任意位置,模型都能生成多种分辨率的遥感图像,创造出丰富多样的“平行场景”。 而且地形、气候、植被等复杂的地理特征,也全都考虑到了。

来自主题: AI技术研报
7592 点击    2024-06-05 23:18
物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

物理传热启发的视觉表征模型vHeat来了,尝试突破注意力机制,兼具低复杂度、全局感受野

如何突破 Transformer 的 Attention 机制?中国科学院大学与鹏城国家实验室提出基于热传导的视觉表征模型 vHeat。将图片特征块视为热源,并通过预测热传导率、以物理学热传导原理提取图像特征。相比于基于Attention机制的视觉模型, vHeat 同时兼顾了:计算复杂度(1.5次方)、全局感受野、物理可解释性。

来自主题: AI技术研报
9195 点击    2024-06-03 17:51
3D生成竞技场来了!比拼360°环绕视频,最强模型由你pick 关注前沿科技 量子位 2024-05-28 12:29 北京

3D生成竞技场来了!比拼360°环绕视频,最强模型由你pick 关注前沿科技 量子位 2024-05-28 12:29 北京

3D生成竞技场来了!比拼360°环绕视频,最强模型由你pick 关注前沿科技 量子位 2024-05-28 12:29 北京

3D生成也有自个儿的人工评测竞技场了~ 来自复旦大学和上海AI lab的研究人员搞了个3DGen-Arena,和大语言模型的Chatbot-Arena、GenAI-Arena等一脉相承,要让大伙儿对3D生成模型来一场公开、匿名的评测

来自主题: AI资讯
9682 点击    2024-05-28 20:50
OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA

OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA

OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA

通过提示查询生成模块和任务感知适配器,大一统框架VimTS在不同任务间实现更好的协同作用,显著提升了模型的泛化能力。该方法在多个跨域基准测试中表现优异,尤其在视频级跨域自适应方面,仅使用图像数据就实现了比现有端到端视频识别方法更高的性能。

来自主题: AI技术研报
9086 点击    2024-05-28 13:53