AI资讯新闻榜单内容搜索-视觉语言模型

DeepSeek-OCR是「长文本理解」未来方向吗？中科院新基准给出答案

DeepSeek-OCR的视觉文本压缩（VTC）技术通过将文本编码为视觉Token，实现高达10倍的压缩率，大幅降低大模型处理长文本的成本。但是，视觉语言模型能否理解压缩后的高密度信息？中科院自动化所等推出VTCBench基准测试，评估模型在视觉空间中的认知极限，包括信息检索、关联推理和长期记忆三大任务。

来自主题: AI技术研报

5140 点击 2026-01-06 09:30

LeCun的JEPA已进化为视觉-语言模型，1.6B参数比肩72B Qwen-VL

近日，来自 Meta、香港科技大学、索邦大学、纽约大学的一个联合团队基于 JEPA 打造了一个视觉-语言模型：VL-JEPA。据作者 Pascale Fung 介绍，VL-JEPA 是第一个基于联合嵌入预测架构，能够实时执行通用领域视觉-语言任务的非生成模型。

来自主题: AI技术研报

8543 点击 2025-12-21 12:39

Jina-VLM：可在笔记本上跑的多语言视觉小模型

今天我们正式发布 Jina-VLM，这是一款 2.4B 参数量的视觉语言模型（VLM），在同等规模下达到了多语言视觉问答（Multilingual VQA）任务上的 SOTA 基准。Jina-VLM 对硬件需求较低，可在普通消费级显卡或 Macbook 上流畅运行。

来自主题: AI资讯

7851 点击 2025-12-09 14:48

混元OCR模型核心技术揭秘：统一框架、真端到端

腾讯混元大模型团队正式发布并开源HunyuanOCR模型！这是一款商业级、开源且轻量（1B参数）的OCR专用视觉语言模型，模型采用原生ViT和轻量LLM结合的架构。目前，该模型在抱抱脸（Hugging Face）趋势榜排名前四，GitHub标星超过700，并在Day 0被vllm官方团队接入。

来自主题: AI技术研报

7579 点击 2025-11-29 13:43

AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐

随着大型视觉语言模型在多个下游任务的广泛应用，其潜在的安全风险也开始快速显露。研究表明，即便是最先进的大型视觉语言模型，也可能在面对带有隐蔽的恶意意图的图像 — 文本输入时给出违规甚至有害的响应，而现有的轻量级的安全对齐方案都具有一定的局限性。

来自主题: AI技术研报

7896 点击 2025-11-25 09:30

NeurIPS 2025 Spotlight | NYU提出QSVD，仅数学压缩让模型更轻、更快、更稳

在多模态智能浪潮中，视觉语言模型（Vision-Language Models, VLM）已成为连接视觉理解与语言生成的核心引擎。从图像描述、视觉问答到 AI 教育和交互系统，它们让机器能够「看懂世界、说人话」。

来自主题: AI技术研报

9112 点击 2025-11-17 09:53

北大团队让AI学会考古！全球首个古希腊陶罐3D视觉问答数据集发布，还配了专用模型

现在AI都懂文物懂历史了。一项来自北京大学的最新研究引发关注：他们推出了全球首个面向古希腊陶罐的3D视觉问答数据集——VaseVQA-3D，并配套推出了专用视觉语言模型VaseVLM。这意味着，AI正在从“识图机器”迈向“文化考古Agent”。

来自主题: AI技术研报

8072 点击 2025-11-07 14:49

高效训练新标杆！华人团队开源原生VLM-NEO，以少数据追平顶级模型

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

来自主题: AI技术研报

7434 点击 2025-10-30 10:55

轻量高效，即插即用：Video-RAG为长视频理解带来新范式

尽管视觉语言模型（LVLMs）在图像与短视频理解中已取得显著进展，但在处理长时序、复杂语义的视频内容时仍面临巨大挑战 —— 上下文长度限制、跨模态对齐困难、计算成本高昂等问题制约着其实际应用。针对这一难题，厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。

来自主题: AI技术研报

7098 点击 2025-10-22 14:57

RL新思路！复旦用游戏增强VLM通用推理，性能匹敌几何数据

复旦大学NLP实验室研发Game-RL，利用游戏丰富视觉元素和明确规则生成多模态可验证推理数据，通过强化训练提升视觉语言模型的推理能力。创新性地提出Code2Logic方法，系统化合成游戏任务数据，构建GameQA数据集，验证了游戏数据在复杂推理训练中的优势。

来自主题: AI技术研报

8836 点击 2025-10-21 10:05