AI资讯新闻榜单内容搜索-VLM

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: VLM

关于机器人数据，强化学习大佬Sergey Levine刚刚写了篇好文章

关于机器人数据，强化学习大佬Sergey Levine刚刚写了篇好文章

关于机器人数据，强化学习大佬Sergey Levine刚刚写了篇好文章

我们知道，训练大模型本就极具挑战，而随着模型规模的扩大与应用领域的拓展，难度也在不断增加，所需的数据更是海量。大型语言模型（LLM）主要依赖大量文本数据，视觉语言模型（VLM）则需要同时包含文本与图像的数据，而在机器人领域，视觉 - 语言 - 行动模型（VLA）则要求大量真实世界中机器人执行任务的数据。

来自主题: AI资讯

8941 点击 2025-07-22 14:57

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

多模态大模型存在「内心预警」，无需训练，就能识别越狱攻击

多模态大模型崛起，安全问题紧随其后近年来，大语言模型（LLMs）的突破式进展，催生了视觉语言大模型（LVLMs）的快速兴起，代表作如 GPT-4V、LLaVA 等。

来自主题: AI技术研报

11408 点击 2025-07-22 09:55

看遍奥斯卡后，VLM达到电影摄影理解新SOTA｜上海AI Lab开源

看遍奥斯卡后，VLM达到电影摄影理解新SOTA｜上海AI Lab开源

看遍奥斯卡后，VLM达到电影摄影理解新SOTA｜上海AI Lab开源

当前最强大的视觉语言模型（VLMs）虽然能“看图识物”，但在理解电影方面还不够“聪明”。

来自主题: AI技术研报

10521 点击 2025-07-17 10:19

单向VLM变双向！人大斯坦福等提出MoCa框架：双向多模态编码器

单向VLM变双向！人大斯坦福等提出MoCa框架：双向多模态编码器

单向VLM变双向！人大斯坦福等提出MoCa框架：双向多模态编码器

MoCa框架把单向视觉语言模型转化为双向多模态嵌入模型，通过持续预训练和异构对比微调，提升模型性能和泛化能力，在多模态基准测试中表现优异，尤其小规模模型性能突出。

来自主题: AI技术研报

10592 点击 2025-07-11 10:09

无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

无损加速视觉语言模型推理！轻松剪掉视觉冗余Token｜腾讯AI Lab

多图像、长视频、细粒度感知正在让大型视觉语言模型（LVLM）变得越来越聪明，但也越来越“吃不消”：视觉Token数量的激增所带来的推理成本暴涨，正逐渐成为多模态智能扩展的最大算力瓶颈。

来自主题: AI技术研报

8517 点击 2025-07-05 19:00

9B“小”模型干了票“大”的：性能超8倍参数模型，拿下23项SOTA | 智谱开源

9B“小”模型干了票“大”的：性能超8倍参数模型，拿下23项SOTA | 智谱开源

9B“小”模型干了票“大”的：性能超8倍参数模型，拿下23项SOTA | 智谱开源

如果一个视觉语言模型（VLM）只会“看”，那真的是已经不够看的了。

来自主题: AI技术研报

10937 点击 2025-07-02 15:56

微软推出深度视频探索智能体，登顶多个长视频理解基准

微软推出深度视频探索智能体，登顶多个长视频理解基准

微软推出深度视频探索智能体，登顶多个长视频理解基准

尽管大型语言模型（LLMs）和大型视觉 - 语言模型（VLMs）在视频分析和长语境处理方面取得了显著进展，但它们在处理信息密集的数小时长视频时仍显示出局限性。

来自主题: AI技术研报

8434 点击 2025-06-30 14:34

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而，它们在长视频理解和检索等长上下文任务中仍表现不佳。

来自主题: AI技术研报

8173 点击 2025-06-30 10:24

AI 开始「自由玩电脑」了！吉大提出「屏幕探索者」智能体

AI 开始「自由玩电脑」了！吉大提出「屏幕探索者」智能体

AI 开始「自由玩电脑」了！吉大提出「屏幕探索者」智能体

迈向通用人工智能（AGI）的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，智能体已展现出令人瞩目的跨领域任务泛化能力。

来自主题: AI技术研报

8607 点击 2025-06-28 11:18

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025

当前大型视觉语言模型（LVLMs）存在物体幻觉问题，即会生成图像中不存在的物体描述。

来自主题: AI技术研报

10873 点击 2025-06-27 16:26

上一页当前第7页,共13页下一页