AI资讯新闻榜单内容搜索-视觉大模型

谷歌&MIT何恺明团队：视觉大模型像LLM一样高效Scaling，指路连续token+随机生成顺序

来自主题: AI技术研报

6624 点击 2024-10-20 17:34

还能玩纸牌游戏。

来自主题: AI资讯

8852 点击 2024-09-01 11:31

不用打标签，也能解决视觉大模型的偏好对齐问题了。

来自主题: AI技术研报

7564 点击 2024-06-23 20:08

CVPR正在进行中，中国科研力量再次成为场内外焦点之一。

来自主题: AI技术研报

11896 点击 2024-06-20 09:58

与 DeiT 等使用 ViT 和 Vision-Mamba (Vim) 方法的模型相比，ViL 的性能更胜一筹。

来自主题: AI技术研报

10378 点击 2024-06-08 15:55

Transformer 在大模型领域的地位可谓是难以撼动。不过，这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后，局限性也愈发凸显了。Mamba的出现，正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。

来自主题: AI技术研报

9567 点击 2024-01-22 14:43

12月5-6日，主题为“未来AI设计”的美图创造力大会在厦门举行。美图公司发布自研AI视觉大模型MiracleVision（奇想智能）4.0版本，主打AI设计与AI视频。

来自主题: AI资讯

7462 点击 2023-12-06 17:24

UC伯克利的CV三巨头推出首个无自然语言的纯视觉大模型，第一次证明纯CV模型也是可扩展的。更令人震惊的是，LVM竟然也能做对图形推理题，AGI火花再次出现了？计算机视觉的GPT时刻，来了！

来自主题: AI资讯

7657 点击 2023-12-04 18:15

训完130亿参数通用视觉语言大模型，只需3天！北大和中山大学团队又出招了——在最新研究中，研究团队提出了一种构建统一的图片和视频表征的框架。利用这种框架，可以大大减少VLM（视觉语言大模型）在训练和推理过程中的开销。

来自主题: AI资讯

7981 点击 2023-11-29 15:32

AI能理解搞笑视频笑点在哪里了。北大等团队开源视觉语言大模型Video-LLaVA，将图像和视频表示对齐到统一的视觉特征空间，在13个图片和视频基准上达到先进的性能。

来自主题: AI技术研报

6992 点击 2023-11-21 12:24