
用扩散模型监督NeRF,清华文生3D新方法成新SOTA
用扩散模型监督NeRF,清华文生3D新方法成新SOTA近日,清华大学刘永进教授课题组提出了一种基于扩散模型的文生3D新方式。无论是不同视角间的一致性,还是与提示词的匹配度,都比此前大幅提升。
近日,清华大学刘永进教授课题组提出了一种基于扩散模型的文生3D新方式。无论是不同视角间的一致性,还是与提示词的匹配度,都比此前大幅提升。
英伟达官方盘点2023年10大研究,从CV到AI,从智能体到生成式AI。英伟达不但现实世界中用GPU收割全世界,也在虚拟世界中用一项项匪夷所思的技术展开了一场革命。
医学领域的通用分割模型来啦,发布即开源!来自智源,模型名为SegVol,划重点:是第一次实现同时支持框(box)、点(point)和文本(text) prompt进行任意尺寸原分辨率的3D体素分割。
近日,苹果连发两篇论文,不仅能一键生成逼真的3D化身,而且还要把大模型装进你的iPhone
生成式 AI 在 3D 领域在很长一段时间内都在等待自己的「ChatGPT」时刻。
最近,有人在社交媒体上发布了一张有关 GPT4.5 更新的截图。图中内容显示,和 GPT 系列之前推出的模型相比,GPT4.5 最大的惊喜可能就是处理 3D 和视频的能力。至于 3D 能力到底是指看得懂 3D 图像,还是能输入 3D 模型,目前只能靠猜。
GPT 4.5疑似大泄漏: 一个是新模型将具备全新多模态能力,文本语音图片以及视频和3D信息全都能一并处理,并且还可以跨模态理解。
区别于其他智库和研究机构,量子位智库基于量子位长期以来对AI及其他前沿科技的追踪报道,积累了数年对前沿科技的深入洞察。
斯坦福吴佳俊团队打造AI版“爱丽丝梦游仙境”巨作!
本文介绍了一个名为Alph-CLIP的框架,它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后,Alpha-CLIP可以在保证CLIP原始感知能力的前提下,关注到任意指定区域。通过替换原始CLIP的应用场景,Alpha-CLIP在图像识别、视觉-语言大模型、2D乃至3D生成领域都展现出强大作用。