华为世界模型来了!单卡30分钟生成272㎡场景

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
华为世界模型来了!单卡30分钟生成272㎡场景
6715点击    2025-10-28 15:07

AI大house真来了。


华为联合上海交通大学、华中科技大学推出了世界模型WordGrow,可以生成1800㎡超大室内场景(19x39块),单卡30分钟就跑了272㎡。


华为世界模型来了!单卡30分钟生成272㎡场景


里面的虚拟人还能顺畅导航,不带迷路的。(小声说:大平层确实需要导航)


华为世界模型来了!单卡30分钟生成272㎡场景


并且场景具备连贯的几何拓扑和照片级真实感外观,智能体的导航则是在复杂空间布局中自主规划路径。


华为世界模型来了!单卡30分钟生成272㎡场景


这可以说是走到哪建到哪了,那场景是怎么搭的?


具备连贯的几何拓扑和照片级真实感外观


以前想造个像样的3D大场景,坑不少。


比如有些技术先靠2D模型画张图,再硬掰成3D,结果换完视角一看,沙发腿歪了、墙壁纹理断了……


还有一些方法最多只能造单个房间,扩展成套房就卡壳;


更离谱的是没有布局逻辑——出现冰箱塞进卧室,床摆在厨房的情况。


华为世界模型来了!单卡30分钟生成272㎡场景


现在,WorldGrow来搞装修了(bushi),用三个核心技术填坑。


华为世界模型来了!单卡30分钟生成272㎡场景


第一步是先做数据精准预处理,从3D-FRONT这类大规模数据集里提取优质样本,用Blender执行场景切片,通过布尔交集对场景进行区块切分,再靠occupancy检测确保区块内容密度(可见内容≥95%)


同时,构建了粗、细两个数据集,粗块来确定宏观布局,细块保留纹理细节。


第二步靠3D块补全机制实现了无缝拼接,在生成新区块时,先让结构生成器确定3D结构框架,再让latent生成器重建结构化潜变量(SLAT)特征,保证外观风格统一。


并且,在输入模型时,会把带噪潜变量、补全区域二进制掩码、已掩码的已知区域特征打包融合,让模型依据现有区块的上下文信息精准生成,消除边缘断裂、纹理错位等拼接缝。


第三步是粗到精生成策略,把场景扩展变成了补全缺失块的任务。


先通过粗结构模型敲定整体规划,比如窗户朝向、走廊连接等布局;随后对粗结构进行三线性插值上采样,将分辨率匹配至细块级别,再调用细结构生成器补全家具、纹理等细节。


华为世界模型来了!单卡30分钟生成272㎡场景


对比可以看出,WorldGrow能够生成高分辨率、连续的室内场景,且场景具有真实且连贯的纹理。


华为世界模型来了!单卡30分钟生成272㎡场景


实验数据显示,在3D-FRONT数据集上,它的几何重建指标MMD、COV均达SOTA,FID(用于评估生成质量的核心指标,越低越优)低至7.52,大幅优于SynCity、BlockFusion等主流方法;


华为世界模型来了!单卡30分钟生成272㎡场景


即便扩展到7×7块的超大场景,边缘质量仍然稳定。


华为世界模型来了!单卡30分钟生成272㎡场景


在效率上,单张A100显卡,30 分钟即可生成10×10区块(约272㎡)的室内场景,速度是同类技术的6倍。


华为世界模型来了!单卡30分钟生成272㎡场景


团队介绍


本文一作是来自上海交通大学的Sikuang Li和Chen Yang,研究完成于他们在华为实习期间。


Chen Yang目前仍为华为研究实习生,研究聚焦于计算机视觉和计算机图形学,导师之一就是这项研究的通讯作者、AI大牛田奇。


田奇,华为终端BG首席科学家,国际欧亚科学院院士,ACM/IEEE Fellow。


论文地址:https://arxiv.org/abs/2510.21682


文章来自于“量子位”,作者“闻乐”。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md