AI资讯新闻榜单内容搜索-空间推理

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 空间推理
多模态模型终于不用「抽帧看世界」?LLaVA-OneVision-2.0全开源全帧率技术解读

多模态模型终于不用「抽帧看世界」?LLaVA-OneVision-2.0全开源全帧率技术解读

多模态模型终于不用「抽帧看世界」?LLaVA-OneVision-2.0全开源全帧率技术解读

由格灵深瞳灵感实验室主导研发的 LLaVA-OneVision-2.0,是一款面向下一代感知智能的视觉语言大模型。团队充分利用视频 Codec 流和自研 OneVision-Encoder,实现跨帧、跨事件的增量观测和连续证据流建模。本文将详细介绍模型架构、训练方法与能力验证,展示该技术在视频理解、空间推理和目标追踪等任务中的应用潜力。

来自主题: AI技术研报
6107 点击    2026-06-03 15:03
CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

CVPR 2026 Oral|横扫室内3D场景,港科大(广州)打造单目开放词汇占据预测新SOTA

在具身智能研究中,如何让智能体精准理解周围环境的精细几何结构与开放语义信息,始终是具身感知的核心难题。近年来,语义占据预测(Semantic Occupancy Prediction) 将稠密几何与语义信息统一到三维体素网格中,用于构建 3D 语义占据地图,为机器人的空间推理、导航与交互操作提供了场景表达基础。

来自主题: AI技术研报
10396 点击    2026-05-06 09:07
直面LeCun愿景,智在无界发布最强具身世界模型,20万小时人类视频屠榜6大榜单

直面LeCun愿景,智在无界发布最强具身世界模型,20万小时人类视频屠榜6大榜单

直面LeCun愿景,智在无界发布最强具身世界模型,20万小时人类视频屠榜6大榜单

4 月 14 日,智在无界发布第三代旗舰模型 Being-H0.7,该模型将数据规模扩展至 20 万小时人类视频,并提出一种全新的范式 —— 基于潜空间推理的世界模型。在 6 项国际性权威评测中,H0.7 综合排名全球第一(其中 4 项登顶),同时也是首个覆盖跨本体、跨场景、连续动态、流体、柔性物体、物理规律与上下文推理等七大关键维度的通用世界模型。

来自主题: AI资讯
8799 点击    2026-04-14 10:22
告别「边画边说」:LatentMorph 开启视觉生成隐式潜空间推理新范式

告别「边画边说」:LatentMorph 开启视觉生成隐式潜空间推理新范式

告别「边画边说」:LatentMorph 开启视觉生成隐式潜空间推理新范式

人类在创作艺术时,大脑并非一味地输出,而是在每一笔落下时都在进行着复杂的、难以言表的 “视觉优化”。

来自主题: AI技术研报
9406 点击    2026-03-05 14:25
Gemini 3仅得33.6分!清华发布首个「约束流形」空间智能基准

Gemini 3仅得33.6分!清华发布首个「约束流形」空间智能基准

Gemini 3仅得33.6分!清华发布首个「约束流形」空间智能基准

SSI-Bench是首个在约束流形中评估模型空间推理能力的基准,强调真实结构与约束条件,通过排序任务考察模型是否能准确理解三维结构的几何与拓扑关系,揭示当前大模型在空间智能上严重依赖2D信息,实际表现远低于人类。研究指出,模型需提升三维构型识别和约束推理能力,才能真正理解空间问题。

来自主题: AI技术研报
10110 点击    2026-02-25 14:33
具身大模型LaST₀:双臂/移动/灵巧手全面新SOTA,首次引入隐空间时空思维链

具身大模型LaST₀:双臂/移动/灵巧手全面新SOTA,首次引入隐空间时空思维链

具身大模型LaST₀:双臂/移动/灵巧手全面新SOTA,首次引入隐空间时空思维链

LaST₀团队 投稿 量子位 | 公众号 QbitAI 近日,至简动力、北京大学、香港中文大学、北京人形机器人创新中心提出了一种名为LaST₀的全新隐空间推理VLA模型,在基于Transformer混

来自主题: AI技术研报
6918 点击    2026-02-08 11:50
思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式

思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式

思维链太长拖慢推理?把它「画」进隐空间!新框架RoT探索大模型隐空间推理新范式

在 LLM 时代,思维链( CoT)已成为解锁模型复杂推理能力的关键钥匙。然而,CoT 的冗长问题一直困扰着研究者——中间推理步骤和解码操作带来了巨大的计算开销和显存占用,严重制约了模型的推理效率。

来自主题: AI技术研报
7863 点击    2026-01-27 16:17
一个模型统一4D世界生成与重建,港科大One4D框架来了

一个模型统一4D世界生成与重建,港科大One4D框架来了

一个模型统一4D世界生成与重建,港科大One4D框架来了

近年来,视频扩散模型在 “真实感、动态性、可控性” 上进展飞快,但它们大多仍停留在纯 RGB 空间。模型能生成好看的视频,却缺少对三维几何的显式建模。这让许多世界模型(world model)导向的应用(空间推理、具身智能、机器人、自动驾驶仿真等)难以落地,因为这些任务不仅需要像素,还需要完整地模拟 4D 世界。

来自主题: AI技术研报
8912 点击    2026-01-13 16:13