AI资讯新闻榜单内容搜索-图像描述

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 图像描述
9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

9大基准全面领先,性能暴涨10.8%!视觉价值模型VisVM成「图像描述」新宠

视觉价值模型(VisVM)通过「推理时搜索」来提升多模态视觉语言模型的图像描述质量,减少幻觉现象。实验表明,VisVM能显著提高模型的视觉理解能力,并可通过自我训练进一步提升性能。

来自主题: AI技术研报
6716 点击    2024-12-30 14:43
DeepMind悄悄发布PaliGemma二代,最易微调「视觉语言全能王」来了,多项任务登顶SOTA

DeepMind悄悄发布PaliGemma二代,最易微调「视觉语言全能王」来了,多项任务登顶SOTA

DeepMind悄悄发布PaliGemma二代,最易微调「视觉语言全能王」来了,多项任务登顶SOTA

PaliGemma 2在多个任务上取得了业界领先的成绩,包括图像描述、乐谱识别和医学图像报告生成;并且提供了不同尺寸和分辨率的版本,用户可以根据不同的任务需求进行微调,以获得更好的性能。

来自主题: AI技术研报
3889 点击    2024-12-11 17:22
7B新王登基!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少

7B新王登基!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少

7B新王登基!Zamba 2完胜同级模型,推理效率比Llama 3提升20%,内存用量更少

Zamba2-7B是一款小型语言模型,在保持输出质量的同时,通过创新架构实现了比同类模型更快的推理速度和更低的内存占用,在图像描述等任务上表现出色,能在各种边缘设备和消费级GPU上高效运行。

来自主题: AI技术研报
4096 点击    2024-10-25 11:06
将图像自动文本化,图像描述质量更高、更准确了

将图像自动文本化,图像描述质量更高、更准确了

将图像自动文本化,图像描述质量更高、更准确了

在当今的多模态大模型的发展中,模型的性能和训练数据的质量关系十分紧密,可以说是 “数据赋予了模型的绝大多数能力”。

来自主题: AI技术研报
5381 点击    2024-06-28 11:28
年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了!模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。

来自主题: AI技术研报
2970 点击    2024-01-27 12:19