AI资讯新闻榜单内容搜索-视觉定位

TPAMI 2026 | 北大彭宇新团队提出CPL++框架，实现视觉定位模型的「自知之明」和「自我纠错」

本文是北京大学彭宇新教授团队在视觉定位方向的最新研究成果，相关论文已被顶级国际期刊 IEEE TPAMI 接收。为视觉定位模型赋予「自知之明」能力 —— 通过自监督的关联校正与验证模块，在训练过程中动态识别、衰减并纠正错误的监督信号。大量实验证明，让模型学会「自我纠错」，是突破弱监督视觉定位瓶颈的有效途径。

来自主题: AI技术研报

7829 点击 2026-04-17 08:41

直指具身智能核心瓶颈，千寻智能高阳团队提出 Point-VLA：首次以视觉定位实现语言指令精准执行

设想这样一个场景：你打电话让同事去办公室某个地方拿东西，仅凭语言描述位置是多么困难。在办公室里，从一堆已经喝过的矿泉水瓶中，让对面同学递过来你之前喝过的那个，只用语言几乎无法准确描述——「左边第二个」？「有点旧的那个」？这时候，人们更倾向于用手指一下，或者拿出图片来指代。

来自主题: AI技术研报

7784 点击 2026-03-31 14:37

华为开源7B多模态模型，视觉定位和OCR能力出色，你的昇腾端侧“新甜点”来了

7B量级模型，向来是端侧部署与个人开发者的心头好。

来自主题: AI技术研报

7778 点击 2026-01-05 14:30

空间智能新高度：港科大谭平团队SAIL-Recon突破万帧级图像大规模3D场景重建Transformer

香港科技大学谭平教授团队与地平线（Horizon Robotics）团队最新发布了一项 3D 场景表征与大规模重建新方法 SAIL-Recon，通过锚点图建立构建场景全局隐式表征，突破现有 VGGT 基础模型对于大规模视觉定位与 3D 重建的处理能力瓶颈，实现万帧级的场景表征抽取与定位重建，将空间智能「3D 表征与建模」前沿推向一个新的高度。

来自主题: AI技术研报

8764 点击 2025-09-08 10:19

类R1强化学习迁移到视觉定位！全开源Vision-R1将图文大模型性能提升50％

图文大模型通常采用「预训练 + 监督微调」的两阶段范式进行训练，以强化其指令跟随能力。受语言领域的启发，多模态偏好优化技术凭借其在数据效率和性能增益方面的优势，被广泛用于对齐人类偏好。目前，该技术主要依赖高质量的偏好数据标注和精准的奖励模型训练来提升模型表现。然而，这一方法不仅资源消耗巨大，训练过程仍然极具挑战。

来自主题: AI技术研报

11448 点击 2025-04-08 14:18

CVPR 2025 | Qwen让AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位

3D 视觉定位（3D Visual Grounding, 3DVG）是智能体理解和交互三维世界的重要任务，旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。

来自主题: AI技术研报

8587 点击 2025-03-24 15:47

27页综述，354篇参考文献！最详尽的视觉定位综述来了

27 页综述，354 篇参考文献！史上最详尽的视觉定位综述，内容覆盖过去十年的视觉定位发展总结，尤其对最近 5 年的视觉定位论文系统性回顾，内容既涵盖传统基于检测器的视觉定位，基于 VLP 的视觉定位，基于 MLLM 的视觉定位，也涵盖从全监督、无监督、弱监督、半监督、零样本、广义定位等新型设置下的视觉定位。

来自主题: AI技术研报

8007 点击 2025-02-01 18:11