AI资讯新闻榜单内容搜索-泛化能力

单向VLM变双向！人大斯坦福等提出MoCa框架：双向多模态编码器

MoCa框架把单向视觉语言模型转化为双向多模态嵌入模型，通过持续预训练和异构对比微调，提升模型性能和泛化能力，在多模态基准测试中表现优异，尤其小规模模型性能突出。

来自主题: AI技术研报

10542 点击 2025-07-11 10:09

打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力

如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而，它们在长视频理解和检索等长上下文任务中仍表现不佳。

来自主题: AI技术研报

8134 点击 2025-06-30 10:24

AI 开始「自由玩电脑」了！吉大提出「屏幕探索者」智能体

迈向通用人工智能（AGI）的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型（LLMs）和视觉语言模型（VLMs）的飞速发展，智能体已展现出令人瞩目的跨领域任务泛化能力。

来自主题: AI技术研报

8582 点击 2025-06-28 11:18

北大腾讯突破奖励模型瓶颈！让AI理解人类偏好，泛化能力比肩GPT-4.1

总是“死记硬背”“知其然不知其所以然”？

来自主题: AI技术研报

7494 点击 2025-06-26 15:47

LLM进入「拖拽时代」！只靠Prompt，几秒定制一个大模型，效率飙升12000倍

最近，来自NUS、UT Austin等机构的研究人员创新性地提出了一种「拖拽式大语言模型」（DnD），它可以基于提示词快速生成模型参数，无需微调就能适应任务。不仅效率最高提升12000倍，而且具备出色的零样本泛化能力。

来自主题: AI技术研报

9658 点击 2025-06-24 14:26

放弃幻想！伯克利重磅：消灭幻觉，就是消灭AI！

关于大模型产生幻觉这个事，从2023年GPT火了以后，就一直是业界津津乐道的热门话题，但始终缺乏系统性的重磅研究来深入解释其根本机制。今天，伯克利的研究者们带来一个重要研究成果：让基于Transformer架构的语言模型产生幻觉的机制，恰恰也是让它们拥有超强泛化能力的关键。这就像是一枚硬币的两面，您想要哪一面，就得接受另一面的存在。

来自主题: AI技术研报

9564 点击 2025-06-23 09:47