AI资讯新闻榜单内容搜索-模型

机器人感知大升级！轻量化注入几何先验，成功率提升31%

VLA模型通常建立在预训练视觉语言模型（VLM）之上，仅基于2D图像-文本数据训练，缺乏真实世界操作所需的3D空间理解能力。

来自主题: AI技术研报

7317 点击 2025-09-29 14:53

前馈3D高斯泼溅新方法，浙大团队提出“体素对齐”，直接在三维空间融合多视角2D信息

在三维重建不断走向工程化的今天，前馈式3D Gaussian Splatting（Feed-Forward 3DGS）正火速走向产业化。然而，现有的前馈3DGS方法主要采用“像素对齐”（pixel-aligned）策略——即将每个2D像素单独映射到一个或多个3D高斯上。

来自主题: AI技术研报

6606 点击 2025-09-29 14:49

AI视频进入蒸汽机时代

百度杀入 AI 视频生成赛道后，就一直加班加点卷个不停。 7 月初，百度第一次正式官宣蒸汽机 1.0 模型，以极致指令遵循能力惊艳亮相；8 月底，百度又发布全球首个中文音视频一体化模型百度蒸汽机 2.0，实现生成视频中人物口型、表情、动作的毫秒级同步。

来自主题: AI资讯

8764 点击 2025-09-29 14:44

千寻智能高阳团队最新成果：纯视觉VLA方案从有限数据中学到强大的空间泛化能力

最近，千寻智能的研究人员注意到，基于模仿学习的视觉运动策略中也存在类似现象，并在论文《Do You Need Proprioceptive States in Visuomotor Policies?》中对此进行了深入探讨。

来自主题: AI技术研报

7922 点击 2025-09-29 14:31

在具身智能的岔路口，这场论坛把数据、模型、Infra聊透了

当机器人成为各大科技展会最受瞩目的焦点，当具身智能论坛场场爆满、一票难求，我们不难发现：这个领域正在经历前所未有的关注热潮。

来自主题: AI资讯

7375 点击 2025-09-29 14:19

大神爆肝一个月，复刻DeepMind世界模型，300万参数就能玩实时交互像素游戏

最近，X 博主 anandmaj 在一个月内复刻 Genie 3 的核心思想，开发出了 TinyWorlds，一个仅 300 万参数的世界模型，能够实时生成可玩的像素风格环境，包括 Pong、Sonic、Zelda 和 Doom。

来自主题: AI资讯

9088 点击 2025-09-29 11:02

Transformer作者初创公司最新成果：开源新框架突破进化计算瓶颈，样本效率暴涨数十倍

Transformer作者Llion Jones带着自己的初创公司Sakana AI，又来搞事情了。（doge）最新推出的开源框架——ShinkaEvolve，可以让LLM在自己写代码优化自己的同时，还能同时兼顾效率，be like为进化计算装上一个“加速引擎”。

来自主题: AI技术研报

8695 点击 2025-09-29 11:01

普通人也能「炼丹」了？我拿小红书文案喂给openPangu-Embedded-1B的模型，几步就把它变成了专属文案大师！

我想聊个反向操作：咱们普通人，如何用有限的资源，轻松驯服一个 AI 模型，让它变成我们专属的垂直领域小能手？主角，就是最近华为刚刚开源的一个大小仅为 1B 的模型 openPangu-Embedded-1B，它不仅全面领先同规格模型，甚至与更大规模的 Qwen3-1.7B 也难分伯仲。

来自主题: AI资讯

9561 点击 2025-09-29 10:57

攻克大模型「表格盲区」！ST-Raptor框架发布，实现复杂半结构化表格的精准理解与信息抽取

来自上海交通大学计算机学院、西蒙菲莎大学、清华大学、中国人民大学的合作团队，带来基于树形框架的智能表格问答系统（ST-Raptor），其不仅能精准捕捉表格中的复杂布局，还能自动生成表格操作指令，并一步步执行这些操作流程，最终准确回答用户提出的问题 —— 就像给 Excel 装上了一个会思考的 “AI 大脑”。

来自主题: AI技术研报

7999 点击 2025-09-29 10:36

中国团队重新定义“星际之门”！全球首个太空计算星座已实现常态化商用

在一场视觉算法挑战中，一组参赛团队将道路识别模型部署至在轨卫星，完成了从图像采集、模型推理到结构化结果回传的全过程。图像未落地，模型也并未运行在地面，所有计算任务均在轨道上完成，最终仅回传识别结果。

来自主题: AI资讯

9053 点击 2025-09-29 10:29