AI资讯新闻榜单内容搜索-VLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: VLM
开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑

开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑

开源多模态SOTA再易主,19B模型比肩GPT-4v,16G显存就能跑

开源多模态SOTA模型再易主!Hugging Face开发者大使刚刚把王冠交给了CogVLM2,来自大模型创业公司智谱AI。CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro,还不是超过一点,是大幅领先。

来自主题: AI资讯
6851 点击    2024-05-22 18:29
COLING24|自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim

COLING24|自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim

COLING24|自适应剪枝让多模态大模型加速2-3倍,哈工大等推出SmartTrim

哈工大联合度小满推出针对多模态模型的自适应剪枝算法 SmartTrim,论文已被自然语言处理顶级会议 COLING 24 接收。

来自主题: AI技术研报
4288 点击    2024-03-17 18:56
让视觉语言模型搞空间推理,谷歌又整新活了

让视觉语言模型搞空间推理,谷歌又整新活了

让视觉语言模型搞空间推理,谷歌又整新活了

视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。

来自主题: AI技术研报
8218 点击    2024-02-18 15:10
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B

对于大型视觉语言模型(LVLM)而言,扩展模型可以有效提高模型性能。然而,扩大参数规模会显著增加训练和推理成本,因为计算中每个 token 都会激活所有模型参数。

来自主题: AI技术研报
6850 点击    2024-01-31 16:23
年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。

来自主题: AI技术研报
3203 点击    2024-01-27 12:19
中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出

中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出

中文性能反超VLM顶流GPT-4V,阿里Qwen-VL超大杯限免!看图秒写编程视觉难题一眼辨出

多模态大模型将是AI下一个爆点。最近,通义千问VLM模型换新升级,超大杯性能堪比GPT-4V。最最重要的是,还能限时免费用。

来自主题: AI资讯
7616 点击    2024-01-26 13:17
骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM

骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM

骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM

近日,美团、浙大等推出了能够在移动端部署的多模态大模型,包含了 LLM 基座训练、SFT、VLM 全流程。也许不久的将来,每个人都能方便、快捷、低成本的拥有属于自己的大模型。

来自主题: AI资讯
10252 点击    2024-01-03 13:42
北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务

训完130亿参数通用视觉语言大模型,只需3天!北大和中山大学团队又出招了——在最新研究中,研究团队提出了一种构建统一的图片和视频表征的框架。利用这种框架,可以大大减少VLM(视觉语言大模型)在训练和推理过程中的开销。

来自主题: AI资讯
6446 点击    2023-11-29 15:32