沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断
7851点击    2025-11-23 19:37

“机会不只来自技术本身。”


带领IDEA研究院(粤港澳大湾区数字经济研究院)走过第五个年头的沈向洋,新鲜分享了他用来梳理智能演进的五个维度——


  • 算法范式
  • 智能载体
  • 交互范式
  • 计算架构
  • 数据


作为IDEA研究院创院理事长,相比给出一个技术路径路线图,他更希望提出一个识别机会的思考框架,帮助创新者在智能演进中找到技术、产品与商业的切口。


沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断


算法范式维度出发,AI算法已经从构筑表达与生成能力的监督学习阶段,演进到引入因果与执行的强化学习阶段。


后面,将继续朝迈向高层认知的自主学习阶段探索。


沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断


智能载体维度出发,当下的关注点已从语言和多模态模型,转向世界模型与具身模型。


这个变化反映出智能载体正从抽象符号空间迈向物理空间。


沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断


人机交互维度上,沈向洋强调交互创新的重要性。


过去70年,人机交互经历了命令行、图形界面、搜索、推荐到自然交互的多次范式迁移,每一次迁移背后都对应着底层技术浪潮的变化。


“今天的产品开发者必须看懂智能特性带来的交互机会。”他同时提到,自然交互内部也在分层:


被动响应——交互式执行——具备提议能力的主动模式,交互方式从文本扩展到语音、手势乃至未来的脑机接口。


沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断


计算架构维度已经出现从通用走向专用、从单一走向多元的趋势。GPU刺激了深度学习的第一波爆发,但能耗与成本也不断攀升。


于是,性能、成本与能效成了大家追逐的新的平衡点,推理、端侧、强化学习等匹配不同应用任务的专用芯片纷纷涌现。


沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断


最后关于数据——在模拟世界阶段,数据是静态教材;在探索世界阶段,数据是动态反馈;在归纳世界阶段,数据是验证假设的证据。


从人类数据枯竭到合成数据兴起,再到AI主动探索并获取实验数据,这背后体现出数据从限制模型能力的约束,逐步转变为推动AI主动学习的工具。


沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断


综上,不难得出沈向洋的insight:


机会并不仅仅来自技术本身,也来自理解技术如何改变载体、交互、计算与数据的方式,如何重新分布能力、资源与价值。


此外,沈向洋特别提到对未来个体和未来公司的思考。


当个体的能力被AI放大,许多原本需要多环节协作的任务,可以由单个个体端到端完成。


组织的重心,在某些领域中,会从管控变成定义问题、融合个体之间的协作。


他打趣地说道:


我想未来的CEO应该怎么定义呢?


可能不是Chief Executive Officer,而是Chief Entertaining Officer(首席氛围官)


还发布了啥?一揽子创新项目


此次大会上,IDEA研究院还宣布了国际先进技术应用推进中心(深圳)与深港高等研究交流中心(SHARE)两个创新平台,以及一系列创新项目。


量子位选取了与具身、AI-Native编程语言等项目与大家分享——


从视觉切入,发布“万物可抓取”DINO-X Grasp模型


2025 IDEA大会上,IDEA研究院计算机视觉与机器人研究中心负责人张磊,首次系统介绍了研究院在具身智能方向的最新成果:


DINO-X Grasp


过去两年,具身智能异军突起,不少团队试图通过VLA(视觉-语言-动作)大模型架构,让机器人像人一样“听得懂人话,看得懂世界,动得起来”。


但这条路线背后的问题很快浮现出来:泛化能力不足


沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断


与其从动作建模着手,不如先把“看清楚”这个问题解决得更彻底——这成为了IDEA研究院发力的突破口。


依托IDEA团队过去在开集目标检测和视觉感知的研究积淀,以强泛化的视觉检测模型DINO-X为基础,IDEA研究院发起了DINO-X Grasp项目


这个模型不仅能够精准识别物体、预测抓取点位,还可以结合深度信息,还原物体的三维结构,从而指导机械臂完成稳定、精确的操作。


沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断


更重要的是,它不挑设备也不挑场景。


  • 在普通4090显卡上,DINO-X Grasp可以实现10帧/秒的实时推理速度。
  • 可兼容主流的英特尔深度相机与X-ARM机械臂,不依赖昂贵工业设备。
  • 具备开箱即用的适配能力,支持在移动端或端侧设备运行


现场展示的视频中,DINO-X Grasp驱动的机器人灵活应对各种形状各异的物品,从食品包装袋到异形障碍物,一抓一个准。


目前,这套方案已在招商局集团多个子公司应用,覆盖港口集装箱验残、桥梁螺钉检测、夜间车辆识别等多个复杂场景。


此外,DINO-X Grasp已经与美团机器人研究院开展了合作。


张宏波团队MoonBit:中国人写的编程语言有了10万用户


写过ReScript语言的张宏波,现在又带领团队在IDEA研究院开发MoonBit。


沈向洋特别提到,张宏波是他知道的唯一一个写的编程语言全世界有以万为计量单位的人数在用的人。


他所带领的MoonBit团队2022年底才成立,刚好赶上了ChatGPT横空出世。张宏波在台上分享时说:“作为新的编程语言,(赶上这个时间点),可以让我们有机会重新思考在AI时代下怎么做开发者工具。”


MoonBit专门为AI时代设计


它是所有编程语言史上第一个原生提供AI助手的语言,还为语言模型打造了基于语义分析的IDE。


更重要的是,MoonBit的性能表现出色。在数字计算等基准测试中,性能超越Java近10倍;WebAssembly后端代码体积比Rust小30%,是TypeScript和Go的50%。


过去一年半,MoonBit从一门支持多后端的编程语言,逐步演进为完整的全栈工具链(包含专为AI设计的原生工具集),最终构建起集开发者工具链与智能体开发生态于一体的开发者平台。


张宏波透露,MoonBit已经有了商业付费客户,包括北美的云厂商用它来进行服务器开发。”大部分编程语言在前四年、前五年都是默默无闻的,而我们在这么早的阶段就累积了这么多用户。”


目前,MoonBit的用户从去年的2.6万到现在超过了10万。张宏波预计到2026年底会有接近100万用户,“成为首个从中国走出去的有世界影响力的开源平台”。


提前预告一下:


下个月,用MoonBit编程语言开发的、支持使用多种编程语言的智能体平台MoonBit agent SDK将正式开源。


沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断


GPU渲染器Smaray:五年磨一剑,打破国外垄断


王嘉平团队的GPU渲染器Smaray是更为直观的IDEA研究院新近成果。


“在电影工业中,一个镜头通常包含几百个G的数据。”王嘉平在演示时介绍,电影工业的渲染和游戏完全不同。游戏要求毫秒级响应,而电影渲染一帧画面可能需要几小时甚至一天。


目前全球电影渲染市场被三家公司垄断:


美国的Arnold占据半壁江山,皮克斯的Renderman和欧洲的V-Ray瓜分剩余市场。


此前,《流浪地球》等国产大片几乎必须使用Arnold渲染。


沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断


花了整整5年时间,从基础算法到工业标准集成,IDEA研究院终于推出了Smaray渲染器。


现场演示环节,王嘉平展示了Smaray的实时渲染能力——


原本需要几分钟才能看清的场景图和雄狮形象,Smaray几秒钟就渲染完成,而且可以像玩FPS游戏一样在场景中自由探索。


更让人惊喜的是,Smaray不仅支持英伟达GPU,还支持AMD、国产GPU甚至苹果芯片。


目前,《流浪地球》特效制作方MoreVFX、《哪吒》制作方光线动画等顶级公司已经开始使用Smaray。


沈向洋解读AI演进五大维度!IDEA研究院发布“万物可抓取”模型,GPU渲染器打破国外垄断


文章来自于微信公众号 “量子位”,作者 “量子位”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md