解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law
解决特斯拉「监督稀疏」难题,DriveVLA-W0用世界模型放大自动驾驶Data Scaling Law在自动驾驶领域,VLA 大模型正从学术前沿走向产业落地的 “深水区”。近日,特斯拉(Tesla)在 ICCV 的分享中,就将其面临的核心挑战之一公之于众 ——“监督稀疏”。
在自动驾驶领域,VLA 大模型正从学术前沿走向产业落地的 “深水区”。近日,特斯拉(Tesla)在 ICCV 的分享中,就将其面临的核心挑战之一公之于众 ——“监督稀疏”。
十年前,我们是国际顶会的仰望者;十年后,SIGGRAPH Asia重返家门,中国已从技术跟跑者变为AI与图形融合新时代的定义者之一,这场盛会不仅是一次技术复盘,更是一次面向全球的实力宣言。
随着生成式 AI 的快速发展,从文本生成图像、视频,到构建完整的三维世界,AI “创造空间” 的能力正以前所未有的速度突破边界。然而,现有 3D 场景生成方法仍存在明显局限:模型往往直接输出每个物体的几何参数(位置、大小、方向等),结果容易出现漂浮、重叠、穿模等问题;场景结构缺乏逻辑一致性,难以编辑或复用,更无法像程序那样精确控制空间关系与生成逻辑。
做过独立开发的朋友都清楚,虽然现在 AI 已经能写出相当不错的前端,后端也有成熟的 BaaS 服务,但应用开发并不仅仅只是写份代码。
上海人工智能实验室推出了一款革新的多模态生成理解一体化的扩散语言模型 ——Lumina-DiMOO。基于离散扩散建模(Discrete Diffusion Modeling),Lumina-DiMOO 打破了多模态任务之间的壁垒,在同一离散扩散框架下,完成从 文本→图像、图像→图像、图像→文本的全栈能力闭环。
长期以来,多模态代码生成(Multimodal Code Generation)的训练严重依赖于特定任务的监督微调(SFT)。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功 ,但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力,阻碍了通用视觉代码智能(Generalized VIsioN Code Intelligence)的发展 。
千问 APP 上线还是超乎意料。毕竟在 2025 年底,可能也只有阿里有底气尝试,重推一款 AI 应用类产品。界面简洁、克制的不像阿里出品。刚好这两天,我做了件有意思的事:泡在小红书,专门看普通用户在用 AI 做些什么,却发现不少人把 AI 用在各种“不正经”上:
昨天,阿里的千问APP,在应用商店里。终于悄悄上线了。从之前的通义APP的双色渐变,变成了现在的属于千问的单色。功能增加了很多,模型也支持了Qwen全系列最新模型。
这可能是今年最魔幻的自曝事件了。一家估值 10 亿美元的 AI 公司 Fireflies.ai,对外宣称 75% 的财富 500 强都在用他们的服务,结果最近创始人自己爆料称:早期产品的 AI 服务,其实就是两个活人躲在后台疯狂手抄笔记。
今年刚满 20 岁的中山大学 00 后本科毕业生沙天铭,前不久收到了多所全美 Top50 高校的博士 offer。同样在前不久,他和合作者为预防中风研发出一款名为 FAST-CAD 的 AI 工具,能在不依赖医院设备的前提下,在复杂的日常环境中实现中风的准确判断。