AI资讯新闻榜单内容搜索-大模型

空间智能终极挑战MMSI-Video-Bench来了，顶级大模型全军覆没

空间理解能力是多模态大语言模型（MLLMs）走向真实物理世界，成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题：一类高度依赖模板生成，限制了问题的多样性；另一类仅聚焦于某一种空间任务与受限场景，因此很难全面检验模型在真实世界中对空间的理解与推理能力。

来自主题: AI技术研报

7381 点击 2026-01-06 09:50

DeepSeek-OCR是「长文本理解」未来方向吗？中科院新基准给出答案

DeepSeek-OCR的视觉文本压缩（VTC）技术通过将文本编码为视觉Token，实现高达10倍的压缩率，大幅降低大模型处理长文本的成本。但是，视觉语言模型能否理解压缩后的高密度信息？中科院自动化所等推出VTCBench基准测试，评估模型在视觉空间中的认知极限，包括信息检索、关联推理和长期记忆三大任务。

来自主题: AI技术研报

5247 点击 2026-01-06 09:30

检索做大，生成做轻：CMU团队系统评测RAG的语料与模型权衡

在检索增强生成中，扩大生成模型规模往往能提升准确率，但也会显著抬高推理成本与部署门槛。CMU 团队在固定提示模板、上下文组织方式与证据预算，并保持检索与解码设置不变的前提下，系统比较了生成模型规模与检索语料规模的联合效应，发现扩充检索语料能够稳定增强 RAG，并在多项开放域问答基准上让小中型模型在更大语料下达到甚至超过更大模型在较小语料下的表现，同时在更高语料规模处呈现清晰的边际收益递减。

来自主题: AI技术研报

7471 点击 2026-01-06 09:30