AI资讯新闻榜单内容搜索-生成模型

SVG性能比肩GPT/Claude，腾讯开源3B模型HiVG，让Token「懂几何」

HiVG是一个面向SVG生成的层次化分词框架，在减少63.8% token数量的同时，以仅3B参数在多项指标上超越所有开源SVG模型和GPT-5.2等闭源模型。仅3B参数的HiVG，在SVG生成任务中多项指标超越了GPT-5.2、Claude-4.5-Sonnet等闭源模型。

来自主题: AI资讯

7860 点击 2026-04-10 16:04

告别直接生成，文生图进入Agent时代：港中文联合伯克利开源Gen-Searcher

过去两年，图像生成模型在质感和审美上一路狂飙，但大多仍是 “直接出图” 的范式。

来自主题: AI技术研报

6725 点击 2026-04-10 08:34

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

AI不再只是把两个物体「放一起」，而是真正造出一个新实体。VMDiff模型通过分阶段策略：先拼接保留信息，再插值融合成整体，并自动调节平衡，让生成结果既像两者，又自然统一。过去，很多图像生成模型都能同时画出两个物体；但要让它们真正「长成一个新物体」，其实远没有那么简单。

来自主题: AI技术研报

8623 点击 2026-04-04 10:58

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache，刷新多模态生成模型推理加速新基准

FLUX 、Qwen-Image 等多模态生成模型的推理速度一直是工业级多模态模型落地的痛点。传统的特征缓存（Feature Caching）方案在追求高倍率加速时，常因瞬时速度的剧烈波动导致轨迹漂移。

来自主题: AI技术研报

8213 点击 2026-04-01 16:13

打破具身世界模型可执行性鸿沟！港中深-跨维智能团队提出EVA框架，用强化学习让视频世界模型真正“动”起来

近期，利用视频生成模型为机器人构建 “世界模型”，已成为具身智能领域的热门技术路线。给定当前观测和自然语言指令，这类模型能够先 “想象” 出未来的视觉轨迹，再由逆动力学模型（IDM）将生成画面解码为机器人动作，从而形成 “先预测、后执行” 的解耦式规划范式。由于兼具较强的可解释性与开放场景泛化潜力，这一路线正在受到学术界和工业界的广泛关注。

来自主题: AI技术研报

8827 点击 2026-03-28 09:50

清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

过去几年，多模态模型在理解任务上快速演进，图像问答、OCR、视觉推理、跨模态对话等能力不断提升；与此同时，图像生成模型也在视觉质量、指令遵循和细节表达上持续突破。下一步一个自然的问题是：能否用同一个模型，同时做好理解与生成？这正是统一多模态模型（Unified Multimodal Models, UMMs）正在回答的问题。

来自主题: AI技术研报

7304 点击 2026-03-26 14:45

ICLR 2026 | ESC — 解构一步生成，厘清细节，探寻本质

近期，基于捷径化概率流路径（shortcut probability flow trajectory）并从头训练的一步扩散生成模型，展现出强大的实证有效性。然而，这类方法的提出通常建立在较为复杂的理论推导之上，并且往往与具体实现细节高度耦合。这带来一个直接的问题：究竟哪些设计是方法成立的本质要素，哪些又只是可以灵活替换的实现组件。

来自主题: AI技术研报

7396 点击 2026-03-24 17:19

大象秒变挖掘机！三维变形新突破，无需额外训练 | CVPR'26

南京大学与北京大学提出MorphAny3D，无需训练即可让三维生成模型实现跨类别平滑变形。通过创新注意力机制融合源与目标特征，精准控制结构与时序，轻松完成复杂变形，效果远超传统方法。

来自主题: AI技术研报

10260 点击 2026-03-17 14:27

速递｜字节最强视频模型 Seedance 2.0 暂停全球发布，好莱坞巨头们集体急了

据 The Informaton 报道，字节跳动已经暂缓了视频生成模型 Seedance 2.0 的全球发布计划。背后的导火索，是一连串来自好莱坞头部片厂和流媒体平台的版权争议。

来自主题: AI资讯

9651 点击 2026-03-15 16:07

黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队

刚刚，Luma AI甩出全新模型Uni-1，正面对标谷歌Nano Banana Pro和GPT Image 1.5。Uni-1是一个统一的图像理解与生成模型。在官方展示中，Uni-1具备角色姿态迁移、故事板生成、草稿+材质结合参考生成、草稿转漫画、多参考图场景合成、草稿引导的照片编辑、UV贴图生成、带有文字的贺卡海报生成等诸多能力。

来自主题: AI资讯

9654 点击 2026-03-06 15:41

AI资讯新闻榜单内容搜索-生成模型

SVG性能比肩GPT/Claude，腾讯开源3B模型HiVG，让Token「懂几何」

告别直接生成，文生图进入Agent时代：港中文联合伯克利开源Gen-Searcher

跨物体融合新突破！从拼贴到创造：AI学会「生」出新物体

ICLR 2026 | 中国联通提出扩散模型缓存框架MeanCache，刷新多模态生成模型推理加速新基准

打破具身世界模型可执行性鸿沟 ！港中深-跨维智能团队提出EVA框架，用强化学习让视频世界模型真正“动”起来

清华、西交联合开源发布了Cheers : 一条更简洁、更高效的统一多模态路线

ICLR 2026 | ESC — 解构一步生成，厘清细节，探寻本质

大象秒变挖掘机！三维变形新突破，无需额外训练 | CVPR'26

速递｜字节最强视频模型 Seedance 2.0 暂停全球发布，好莱坞巨头们集体急了

黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队

打破具身世界模型可执行性鸿沟！港中深-跨维智能团队提出EVA框架，用强化学习让视频世界模型真正“动”起来