AI资讯新闻榜单内容搜索-自回归

联合理解生成的关键拼图？腾讯发布X-Omni：强化学习让离散自回归生成方法重焕生机，轻松渲染长文本图像

在图像生成领域，自回归（Autoregressive, AR）模型与扩散（Diffusion）模型之间的技术路线之争始终未曾停歇。大语言模型（LLM）凭借其基于「预测下一个词元」的优雅范式，已在文本生成领域奠定了不可撼动的地位。

来自主题: AI技术研报

7145 点击 2025-08-11 10:17

声音理解能力新SOTA，小米全量开源了模型。 MiDashengLM-7B，基于Xiaomi Dasheng作为音频编码器和Qwen2.5-Omni-7B Thinker作为自回归解码器，通过创新的通用音频描述训练策略，实现了对语音、环境声音和音乐的统一理解。

来自主题: AI技术研报

7020 点击 2025-08-06 12:11

用扩散模型写代码，不仅像开了倍速，改起来还特别灵活！字节Seed最新发布扩散语言模型Seed Diffusion Preview，这款模型主要聚焦于代码生成领域，它的特别之处在于采用了离散状态扩散技术，在推理速度上表现出色。

来自主题: AI资讯

7496 点击 2025-08-01 16:04

当下的AI图像生成领域，Diffusion模型无疑是绝对的王者，但在精准控制上却常常“心有余而力不足”。

来自主题: AI技术研报

9992 点击 2025-07-30 10:55

近年来，语言模型的显著进展主要得益于大规模文本数据的可获得性以及自回归训练方法的有效性。

来自主题: AI技术研报

8186 点击 2025-07-24 15:28

本文主要介绍 xML 团队的论文：Discrete Diffusion in Large Language and Multimodal Models: A Survey。

来自主题: AI技术研报

10617 点击 2025-07-17 10:42

本文介绍并开发了一种自回归生成多视图图像的方法 MVAR 。其目的是确保在生成当前视图的过程中，模型能够从所有先前的视图中提取有效的引导信息，从而增强多视图的一致性。

来自主题: AI技术研报

7578 点击 2025-07-13 11:07

谁说扩散模型只能生成图像和视频？现在它们能高质量地写代码了，速度还比传统大模型更快！Inception Labs推出基于扩散技术的全新商业级大语言模型——Mercury。

来自主题: AI技术研报

8204 点击 2025-07-11 12:02

阿里巴巴达摩院提出了 WorldVLA, 首次将世界模型 (World Model) 和动作模型 (Action Model/VLA Model) 融合到了一个模型中。WorldVLA 是一个统一了文本、图片、动作理解和生成的全自回归模型。

来自主题: AI技术研报

7994 点击 2025-07-03 18:59

清华大学朱军教授团队与 NVIDIA Deep Imagination 研究组联合提出一种全新的视觉生成模型优化范式 —— 直接判别优化（DDO）。

来自主题: AI技术研报

7801 点击 2025-07-02 10:33