AI TNT— 让一部分先用AI实现商业化

训完130亿参数通用视觉语言大模型，只需3天！北大和中山大学团队又出招了——在最新研究中，研究团队提出了一种构建统一的图片和视频表征的框架。利用这种框架，可以大大减少VLM（视觉语言大模型）在训练和推理过程中的开销。

来自主题: AI资讯

5719 点击 2023-11-29 15:32

来自主题: AI技术研报

5598 点击 2023-11-25 22:27

最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这个结果表明，统一LLM的输入能让LLM的视觉理解能力提升。

来自主题: AI技术研报

4681 点击 2023-11-24 15:10

AI能理解搞笑视频笑点在哪里了。北大等团队开源视觉语言大模型Video-LLaVA，将图像和视频表示对齐到统一的视觉特征空间，在13个图片和视频基准上达到先进的性能。

来自主题: AI技术研报

4667 点击 2023-11-21 12:24

GPT-4V挑战视觉错误图，结果令人“大跌眼镜”。像这种判断“哪边颜色更亮”的题，一个没做对

来自主题: AI技术研报

3616 点击 2023-11-06 23:10

BeSuperhuman.ai是一家计算机视觉人工智能初创公司，这家公司准备用突破性的新型视觉推理LLM模型，来颠覆AI工作助手的工作模式，以及我们过往操作电脑工具的交互方式。

来自主题: AI资讯

3336 点击 2023-10-24 23:23

家人们，现在搞一套高清商拍大片，简直不要太简单好吧！只需几秒钟，几个“点击”的动作，就齐活了—这就是虹软科技在今天新鲜出炉的面向电商的创新产品——PhotoStudio® AI智能商拍摄影云工作室（Beta）。

来自主题: AI资讯

5504 点击 2023-10-24 16:00

最近，智源、清华和北大联合发布了全新的10亿参数的3D视觉通用模型——Uni3D，在主流3D视觉能力上取得了全方位的性能突出！

来自主题: AI技术研报

3458 点击 2023-10-21 14:12

在快速发展的人工智能领域，自然语言处理已成为研究人员和开发人员关注的焦点。近年来，在Transformer 架构和BERT 双向升级的基础上，出现了几种突破性的语言模型，突破了机器理解和生成的界限。

来自主题: AI技术研报

3620 点击 2023-08-31 22:43