ICCV 2025 | 扩散模型生成手写体文本行的首次实战,效果惊艳还开源
ICCV 2025 | 扩散模型生成手写体文本行的首次实战,效果惊艳还开源AI 会写字吗?在写字机器人衍生换代的今天,你或许并不觉得 AI 写字有多么困难。
AI 会写字吗?在写字机器人衍生换代的今天,你或许并不觉得 AI 写字有多么困难。
刚刚,宇树发布第四款人形机器人 H2,高 180cm,重 70kg。和前代 H1 相比,今天发布的 H2 无论是在运动流畅性、还是仿生特征上,都有了相当大的升级。首先是整体的外观形态,和 H 系列都是 180cm 的身高一致,但是 H2 的重量突破性地来到了 70kg 左右,H1 仅有约 47kg。如果要计算它的 BMI,21.6 的结果,妥妥的一个健康好身材。
美国麻省理工学院李巨团队在国际顶尖学术期刊Nature上发表了一篇研究论文,展示了一种多模态机器人平台CRESt(Copilot for Real-world Experimental Scientists),通过将多模态模型(融合文本知识、化学成分以及微观结构信息)驱动的材料设计与高通量自动化实验相结合,大幅提升催化剂的研发速度和质量。
“很多模型在模拟器里完美运行,但一到现实就彻底失灵。” 在最新一次线上对谈中,Dexmal联合创始人唐文斌与Hugging Face联合创始人Thomas Wolf指出了当前机器人研究的最大痛点。
在机器人学习领域,提升基于生成式模型的控制策略(Policy)的性能通常意味着投入巨额成本进行额外的数据采集和模型训练,这极大地限制了机器人能力的快速迭代与升级。面对模型性能的瓶颈,如何在不增加训练负担的情况下,进一步挖掘并增强现有策略的潜力?
Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。
400元遥操95%机械臂,上海交大推出开源项目U-Arm! 目前它已在XArm6、Dobot CR5、ARX R5等多种机械臂真机上进行了遥操作的验证。
在「具身智能」与「世界模型」成为新一轮 AI 竞赛关键词的当下,来自北京人形机器人创新中心、北京大学多媒体信息处理国家重点实验室、香港科技大学的中国团队开源了全新的世界模型架构。
黄仁勋大家都见得多了,但你见过他女儿讲具身智能吗?这不,黄仁勋女儿Madison Huang首次公开亮相直播访谈节目,作为英伟达Omniverse与物理AI高级总监,与光轮智能CEO谢晨,以及光轮智能增长负责人穆斯塔法一起,对“如何缩小机器人在虚拟与现实之间的差距”展开深刻探讨。
在机器人与自动驾驶领域,由强化学习训练的控制策略普遍存在控制动作不平滑的问题。这种高频的动作震荡不仅会加剧硬件磨损、导致系统过热,更会在真实世界的复杂扰动下引发系统失稳,是阻碍强化学习走向现实应用的关键挑战。