AI TNT— 让一部分先用AI实现商业化

随意指定CLIP关注区域！上交复旦等发布Alpha-CLIP：同时保持全图+局部检测能力

本文介绍了一个名为Alph-CLIP的框架，它在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后，Alpha-CLIP可以在保证CLIP原始感知能力的前提下，关注到任意指定区域。通过替换原始CLIP的应用场景，Alpha-CLIP在图像识别、视觉-语言大模型、2D乃至3D生成领域都展现出强大作用。

来自主题: AI资讯

7462 点击 2023-12-13 16:14

一张照片、一段声音秒生超逼真视频！南大等提出全新框架，口型动作精准还原

最近，来自南大等机构的研究人员开发了一个通用的框架，用一段音频就能让照片上的头像讲多国语言。不论是头部动作还是嘴型都非常自然，看到很多不错的

来自主题: AI资讯

4090 点击 2023-12-13 16:04