AI资讯新闻榜单内容搜索-统一模型

开源版的 GPT Image 2，信息图、连续图文、本地部署全拿下｜商汤SenseNova U1实测

SenseNova U1 是商汤最新发布的一个开源的多模态模型，它的 Lite 系列 8B 和 A3B 参数版本，目前已经在 Hugging Face 和 GitHub 上开源。APPSO 也提前拿到了测试资格，我们发现商汤这款新一代原生理解生成统一模型，就开源模型来说，已经做到了最好水平。

来自主题: AI产品测评

8894 点击 2026-04-29 19:51

商汤开源全新架构的理解生成统一模型SenseNova-U1，复刻GPT-Image-2生图绝活

商汤刚刚开源了一个全新架构的理解生成统一模型SenseNova-U1，虽然小尺寸版本只有8B，却能复刻不少GPT-Image-2的拿手绝活。太阳系图解，八大行星各自的轨道、属性、图文介绍一应俱全，看着挺像那么回事。

来自主题: AI资讯

7919 点击 2026-04-29 10:11

机器人这回真要进家当保姆了！世界统一模型登场，有世界观、能自我进化

1个月后，自变量新一代机器人就要入驻真实家庭了。

来自主题: AI资讯

9449 点击 2026-04-24 09:15

全球首个世界统一模型发布，机器人家庭成员来了！

就在刚刚，自变量机器人发布了全球首个世界统一模型架构的具身智能基础模型：WALL-B。基于世界统一模型，WALL-B解决了传统VLA架构在模块间数据搬运上的bug点——

来自主题: AI资讯

6020 点击 2026-04-22 18:52

上海交大DENG Lab提出「LatentUM」：Unified Model的真正「战场」在视觉推理与世界模型

过去一段时间，生成理解统一模型（Unified Model）经常被理解成一种「既能看懂图、又能生成图」的多模态通用系统。

来自主题: AI技术研报

8298 点击 2026-04-14 08:42

这是一个划时代的生图模型，一手实测Wan2.7-Image

3月30日，阿里巴巴内部发布了 Wan2.7-Image 图像生成与编辑统一模型。根据官方公布的数据，在人类偏好盲测评分中，Wan2.7-Image 目前位列国内第一。从放出的评测雷达图来看，无论是文本生图（Text-to-Image）还是综合图像编辑（Image Editing），它的各项指标基本都盖过了市面上主流的几家头部模型。

来自主题: AI资讯

8689 点击 2026-04-02 10:42

ICLR 2026｜原生多模态推理新范式ThinkMorph ，让文字与图像在统一架构中共同演化

NUS、ZJU、UW、Stanford、CUHK 联合提出「ThinkMorph」，主张让文字与图像在统一架构里「原生协作」、「共同演化」，而不是像当下大多数多模态模型那样，看完图像就闭上眼睛，后续完全靠文字链条推进。仅用 2.4 万条数据微调 7B 统一模型，视觉推理平均提升 34.74%，多项任务比肩甚至超越 GPT-4o 和 Gemini 2.5 Flash。

来自主题: AI技术研报

6823 点击 2026-03-11 09:22

一个模型，搞定所有音频生成任务！多项基准SOTA | ICLR'26

港科大团队提出音频生成统一模型AudioX，只需一个模型，就能从文本、视频、图像等任意模态生成高质量音效和音乐，在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench，并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。

来自主题: AI技术研报

7536 点击 2026-03-09 14:29

超越π0.5，复旦团队首创「世界模型+具身训练+强化学习」闭环框架

Vision–Language–Action（VLA）策略正逐渐成为机器人迈向通用操作智能的重要技术路径：这类策略能够在统一模型内同时处理视觉感知、语言指令并生成连续控制信号。

来自主题: AI技术研报

9581 点击 2025-12-05 09:27

架构解耦是统一多模态模型所必须的吗？全新AIA损失：No

近一年以来，统一理解与生成模型发展十分迅速，该任务的主要挑战在于视觉理解和生成任务本身在网络层间会产生冲突。早期的完全统一模型（如 Emu3）与单任务的方法差距巨大，Janus-Pro、BAGEL 通过一步一步解耦模型架构，极大地减小了与单任务模型的性能差距，后续方法甚至通过直接拼接现有理解和生成模型以达到极致的性能。

来自主题: AI技术研报

8895 点击 2025-12-02 15:17