AI资讯新闻榜单内容搜索-CV

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: CV
CVPR 2025 | 2D 大模型赋能3D Affordance 预测,GEAL助力可泛化的3D场景可交互区域识别

CVPR 2025 | 2D 大模型赋能3D Affordance 预测,GEAL助力可泛化的3D场景可交互区域识别

CVPR 2025 | 2D 大模型赋能3D Affordance 预测,GEAL助力可泛化的3D场景可交互区域识别

在现实世界中,如何让智能体理解并挖掘 3D 场景中可交互的部位(Affordance)对于机器人操作与人机交互至关重要。所谓 3D Affordance Learning,就是希望模型能够根据视觉和语言线索,自动推理出物体可供哪些操作、以及可交互区域的空间位置,从而为机器人或人工智能系统提供对物体潜在操作方式的理解。

来自主题: AI技术研报
4970 点击    2025-04-11 09:55
铰链物体的通用世界模型,超越扩散方法,入选CVPR 2025

铰链物体的通用世界模型,超越扩散方法,入选CVPR 2025

铰链物体的通用世界模型,超越扩散方法,入选CVPR 2025

基于当前观察,预测铰链物体的的运动,尤其是 part-level 级别的运动,是实现世界模型的关键一步。

来自主题: AI技术研报
8563 点击    2025-04-07 15:03
CVPR 2025 | GaussianCity: 60倍加速,让3D城市瞬间生成

CVPR 2025 | GaussianCity: 60倍加速,让3D城市瞬间生成

CVPR 2025 | GaussianCity: 60倍加速,让3D城市瞬间生成

想象一下,一座生机勃勃的 3D 城市在你眼前瞬间成型 —— 没有漫长的计算,没有庞大的存储需求,只有极速的生成和惊人的细节。

来自主题: AI技术研报
6586 点击    2025-04-06 17:07
CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo

CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo

CVPR满分论文 | 英伟达开源双目深度估计大模型FoundationStereo

本文介绍了 FoundationStereo,一种用于立体深度估计的基础模型,旨在实现强大的零样本泛化能力。

来自主题: AI技术研报
7428 点击    2025-04-06 16:13
动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025

动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025

动态场景,开放文本查询!清华哈佛联合建模4D语言场 | CVPR 2025

4D LangSplat通过结合多模态大语言模型和动态三维高斯泼溅技术,成功构建了动态语义场,能够高效且精准地完成动态场景下的开放文本查询任务。该方法利用多模态大模型生成物体级的语言描述,并通过状态变化网络实现语义特征的平滑建模,显著提升了动态语义场的建模能力。

来自主题: AI技术研报
3961 点击    2025-04-02 15:05