AI资讯新闻榜单内容搜索-grounding

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: grounding

ICML 2026 Oral | 为3D空间智能数据构建全自动数据飞轮，Holi-Spatial打造400万级空间多模态数据集

ICML 2026 Oral | 为3D空间智能数据构建全自动数据飞轮，Holi-Spatial打造400万级空间多模态数据集

ICML 2026 Oral | 为3D空间智能数据构建全自动数据飞轮，Holi-Spatial打造400万级空间多模态数据集

从原始视频出发，无需人工介入，自动生成 3D 重建、深度、2D mask、3D 框、实例描述、3D grounding 和空间问答。Holi-Spatial 试图把「空间智能」的数据生产，推进到自动化、可扩展的新阶段。

来自主题: AI技术研报

6985 点击 2026-06-19 10:16

AI「看不懂」、「做不好」视频的问题，混元用「MTSS」解决了

AI「看不懂」、「做不好」视频的问题，混元用「MTSS」解决了

AI「看不懂」、「做不好」视频的问题，混元用「MTSS」解决了

腾讯混元团队提出了 Multi-Stream Scene Script（MTSS），一种全新的视频描述范式 —— 将传统的 "一段话描述整个视频" 升级为 "多流结构化剧本"，通过 Stream Factorization 和 Relational Grounding 两大核心原则，让视频描述既忠实又可扩展，在视频理解和生成任务中均取得显著提升。

来自主题: AI技术研报

7184 点击 2026-04-28 09:57

AI医生终于有了硬标尺！全球首个专病循证评测框架GAPS发布，蚂蚁联合北大王俊院士团队出品

AI医生终于有了硬标尺！全球首个专病循证评测框架GAPS发布，蚂蚁联合北大王俊院士团队出品

AI医生终于有了硬标尺！全球首个专病循证评测框架GAPS发布，蚂蚁联合北大王俊院士团队出品

蚂蚁健康与北京大学人民医院王俊院士团队历时6个多月，联合十余位胸外科医生共同打磨，发布了全球首个大模型专病循证能力的评测框架—— GAPS（Grounding, Adequacy, Perturbation, Safety），及其配套评测集 GAPS-NSCLC-preview。

来自主题: AI技术研报

11300 点击 2025-12-29 15:06

下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

下一代目标检测模型：3B参数MLLM Rex-Omni首度超越Grounding DINO，统一10+视觉任务

多模态大语言模型（MLLM）在目标定位精度上被长期诟病，难以匹敌传统的基于坐标回归的检测器。近日，来自 IDEA 研究院的团队通过仅有 3B 参数的通用视觉感知模型 Rex-Omni，打破了这一僵局。

来自主题: AI技术研报

7306 点击 2025-11-14 10:18

谷歌放大招！Gemini「吞下」2.5亿地图数据，路痴AI一夜成精

谷歌放大招！Gemini「吞下」2.5亿地图数据，路痴AI一夜成精

谷歌放大招！Gemini「吞下」2.5亿地图数据，路痴AI一夜成精

世界在AI眼中活了过来！谷歌Grounding with Google Maps功能上线，Gemini可调用2.5亿地点信息，结合搜索工具，提供更准确、更及时的答案，完美适用于旅行规划和本地服务。

来自主题: AI资讯

9155 点击 2025-10-24 11:43

告别海量标注！浙大团队提出GUI-RCPO，让GUI定位在无标签数据上自我进化

告别海量标注！浙大团队提出GUI-RCPO，让GUI定位在无标签数据上自我进化

告别海量标注！浙大团队提出GUI-RCPO，让GUI定位在无标签数据上自我进化

无需海量数据标注，智能体也能精确识别定位目标元素了！来自浙大等机构的研究人员提出GUI-RCPO——一种自我监督的强化学习方法，可以让模型在没有标注的数据上自主提升GUI grounding（图形界面定位）能力。

来自主题: AI技术研报

9319 点击 2025-09-05 15:28

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码

智谱基于GLM-4.5打造的开源多模态视觉推理模型GLM-4.5V，在42个公开榜单中41项夺得SOTA！其功能涵盖图像、视频、文档理解、Grounding、地图定位、空间关系推理、UI转Code等。

来自主题: AI资讯

9558 点击 2025-08-12 13:04

GUI定位还在玩「非黑即白」？浙大团队提出GUI-G²，显著提升GUI智能体定位性能

GUI定位还在玩「非黑即白」？浙大团队提出GUI-G²，显著提升GUI智能体定位性能

GUI定位还在玩「非黑即白」？浙大团队提出GUI-G²，显著提升GUI智能体定位性能

本文第一作者唐飞，浙江大学硕士生，研究方向是 GUI Agent、多模态推理等。

来自主题: AI技术研报

9829 点击 2025-08-04 13:59

突破高分辨率图像推理瓶颈，复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO

突破高分辨率图像推理瓶颈，复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO

突破高分辨率图像推理瓶颈，复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO

本文的主要作者来自复旦大学和南洋理工大学 S-Lab，研究方向聚焦于视觉推理与强化学习优化。

来自主题: AI技术研报

9445 点击 2025-07-22 10:21

CVPR 2025 | Qwen让AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位

CVPR 2025 | Qwen让AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位

CVPR 2025 | Qwen让AI「看见」三维世界，SeeGround实现零样本开放词汇3D视觉定位

3D 视觉定位（3D Visual Grounding, 3DVG）是智能体理解和交互三维世界的重要任务，旨在让 AI 根据自然语言描述在 3D 场景中找到指定物体。

来自主题: AI技术研报

8804 点击 2025-03-24 15:47

上一页当前第1页,共2页下一页