空间智能再进化!Spatial-SSRL帮助LVLM更好读懂空间
空间智能再进化!Spatial-SSRL帮助LVLM更好读懂空间本文第一作者为刘禹宏,上海交通大学人工智能专业本科四年级学生,相关研究工作于上海人工智能实验室科研实习期间完成。通讯作者为王佳琦、臧宇航,在该研究工作完成期间,均担任上海人工智能实验室研究员。
本文第一作者为刘禹宏,上海交通大学人工智能专业本科四年级学生,相关研究工作于上海人工智能实验室科研实习期间完成。通讯作者为王佳琦、臧宇航,在该研究工作完成期间,均担任上海人工智能实验室研究员。
2024年以来,从苹果Vision Pro将「空间计算」推向巅峰,到Peloton Guide、Nex Playground等「AI摄像头」硬件开始在小规模市场中验证可行性,风口已然初现。
世界模型,着实有点火!今天,李飞飞重磅访谈放出,从AI革命兴起到下一个智能前沿——具备空间智能的世界模型。一场访谈,可以窥见AI教母关于AI未来的深刻洞察。
就在今天,罗福莉以C位之姿,首次对外官宣了小米任职。刚刚,罗福莉在X上高调宣布——正式加入小米,出任MiMo团队负责人。智能的进化必然会从语言世界走向物理世界,解锁多模态的空间智能——具备感知、推理、生成与行动的能力,这是实现真正通用人工智能(AGI)的关键一步。
昨晚,商汤正式发布并开源SenseNova-SI系列空间智能大模型,涵盖2B与8B两个版本。该系列模型在多个空间智能基准测试中均表现突出,其中SenseNova-SI-8B模型在VSI-Bench、MMSI-Bench、MindCube-Tiny与ViewSpatial四个核心任务上获得60.99的平均成绩
AI的下一个十年,是构建空间智能的机器。李飞飞最新硬核长文,揭秘了空间智能「世界模型」核心框架和三大核心支柱。但「空间智能」究竟是什么?为何如此重要?该如何构建它?又该如何应用它?今天,李飞飞撰万字长文分享了自己关于构建和使用「世界模型」以解锁空间智能的思考。
这周一,一张神秘海报在科技圈引发热议。
刚刚,AI教母李飞飞发表长文,首次系统性地解释了什么空间智能、为什么重要以及如何构建能够解锁它的世界模型。 文章里,李飞飞不仅提出了“真正具有空间智能的世界模型”必须具备的三个核心能力:
空间智能领域的全景数据稀缺问题,有解了。影石研究院团队,推出了基于DiT架构的全景图像生成模型DiT360。通过全新的全景图像生成框架,DiT360能够实现高质量的全景生成。
近来,由AI生成的视频片段以前所未有的视觉冲击力席卷了整个互联网,视频生成模型创造出了许多令人惊叹的、几乎与现实无异的动态画面。