AI TNT— 让一部分先用AI实现商业化

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: LLaVA

给视频模型安上快慢两只眼睛，苹果免训练新方法秒了一切SOTA

给视频模型安上快慢两只眼睛，苹果免训练新方法秒了一切SOTA

自从 Sora 发布以来，AI 视频生成领域变得更加「热闹」了起来。过去几个月，我们见证了即梦、Runway Gen-3、Luma AI、快手可灵轮番炸场。

来自主题: AI技术研报

7853 点击 2024-08-11 13:18

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

TinyLLaVA 项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP) 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智慧医疗、自然语言处理与知识发现、多模态等研究领域。北航团队长期致力于深度学习、多模态、计算机视觉等研究领域。

来自主题: AI技术研报

8285 点击 2024-05-27 16:24

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

揭秘AI幻觉：GPT-4V存在视觉编码漏洞，清华联合NUS提出LLaVA-UHD

GPT-4V 的推出引爆了多模态大模型的研究。GPT-4V 在包括多模态问答、推理、交互在内的多个领域都展现了出色的能力，成为如今最领先的多模态大模型。

来自主题: AI技术研报

3332 点击 2024-04-07 17:46

3B模型不输7B LLaVA！北大多模态MoE模型登GitHub热榜

3B模型不输7B LLaVA！北大多模态MoE模型登GitHub热榜

混合专家（MoE）架构已支持多模态大模型，开发者终于不用卷参数量了！北大联合中山大学、腾讯等机构推出的新模型MoE-LLaVA，登上了GitHub热榜。

来自主题: AI技术研报

3488 点击 2024-02-09 13:54

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

将多模态大模型稀疏化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

对于大型视觉语言模型（LVLM）而言，扩展模型可以有效提高模型性能。然而，扩大参数规模会显著增加训练和推理成本，因为计算中每个 token 都会激活所有模型参数。

来自主题: AI技术研报

5742 点击 2024-01-31 16:23

GPT-4V惨败！CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类

GPT-4V惨败！CV大神谢赛宁新作：V*重磅「视觉搜索」算法让LLM理解力逼近人类

多模态大模型GPT-4V也会「有眼无珠」。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。

来自主题: AI资讯

4641 点击 2024-01-20 15:01

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发

GPT-4V开源平替！清华浙大领衔，LLaVA、CogAgent等开源视觉模型大爆发

GPT-4V的开源替代方案来了！极低成本，性能却类似，清华、浙大等中国顶尖学府，为我们提供了性能优异的GPT-4V开源平替。

来自主题: AI资讯

7127 点击 2024-01-03 13:50

提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

提前对齐，视频问答新SOTA！北大全新Video-LLaVA视觉语言大模型，秒懂视频笑点

最近，来自北京大学等机构研究者提出了一种全新视觉语言大模型——Video-LLaVA，使得LLM能够同时接收图片和视频为输入。Video-LlaVA在下游任务中取得了卓越的性能，并在图片、视频的13个基准上达到先进的性能。这个结果表明，统一LLM的输入能让LLM的视觉理解能力提升。

来自主题: AI技术研报

4599 点击 2023-11-24 15:10

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

北大视频大模型新SOTA，搞笑抖音视频AI秒懂笑点｜开源

AI能理解搞笑视频笑点在哪里了。北大等团队开源视觉语言大模型Video-LLaVA，将图像和视频表示对齐到统一的视觉特征空间，在13个图片和视频基准上达到先进的性能。

来自主题: AI技术研报

4583 点击 2023-11-21 12:24

正面硬刚GPT-4V！浙大校友开源多模态大模型LLaVA-1.5，130亿参数8个A100一天训完

正面硬刚GPT-4V！浙大校友开源多模态大模型LLaVA-1.5，130亿参数8个A100一天训完

GPT-4V风头正盛，LLaVA-1.5就来踢馆了！它不仅在11个基准测试上都实现了SOTA，而且13B模型的训练，只用8个A100就可以在1天内完成。

来自主题: AI技术研报

4597 点击 2023-10-08 15:34

上一页当前第1页,共1页下一页