AI资讯新闻榜单内容搜索-自回归

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 自回归
美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局

美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局

美团提出全新多模态统一大模型STAR,GenEval突破0.91,破解“理解-生成”零和困局

近日,美团推出全新多模态统一大模型方案 STAR(STacked AutoRegressive Scheme for Unified Multimodal Learning),凭借创新的 "堆叠自回归架构 + 任务递进训练" 双核心设计,实现了 "理解能力不打折、生成能力达顶尖" 的双重突破。

来自主题: AI技术研报
11027 点击    2026-02-05 13:50
机器人学会预测未来了!蚂蚁灵波连续第4天开源全球首个用于通用机器人控制的因果视频-动作世界模型

机器人学会预测未来了!蚂蚁灵波连续第4天开源全球首个用于通用机器人控制的因果视频-动作世界模型

机器人学会预测未来了!蚂蚁灵波连续第4天开源全球首个用于通用机器人控制的因果视频-动作世界模型

是蚂蚁灵波又又又又(连续第4天)开源的狠活儿——全球首个用于通用机器人控制的因果视频-动作世界模型,LingBot-VA。但LingBot-VA就不一样了,它通过自回归视频预测打破了这种思考方式,在动手之前,脑子里先把未来几秒的画面推演出来。

来自主题: AI资讯
8666 点击    2026-01-31 10:57
JustGRPO:扩散语言模型的极简主义回归

JustGRPO:扩散语言模型的极简主义回归

JustGRPO:扩散语言模型的极简主义回归

扩散语言模型(Diffusion LLMs, dLLMs)因支持「任意顺序生成」和并行解码而备受瞩目。直觉上,打破传统自回归(AR)「从左到右」的束缚,理应赋予模型更广阔的解空间,从而在数学、代码等复杂任务上解锁更强的推理潜力。

来自主题: AI技术研报
10614 点击    2026-01-29 14:55
自回归因果注意力也能并行解码?上交联合UCSD突破LLM推理瓶颈,模型代码全开源

自回归因果注意力也能并行解码?上交联合UCSD突破LLM推理瓶颈,模型代码全开源

自回归因果注意力也能并行解码?上交联合UCSD突破LLM推理瓶颈,模型代码全开源

在大语言模型(LLM)落地应用中,推理速度始终是制约效率的核心瓶颈。传统自回归(AR)解码虽能保证生成质量,却需逐 token 串行计算,速度极为缓慢;扩散型 LLM(dLLMs)虽支持并行解码,却面

来自主题: AI技术研报
8432 点击    2025-12-31 09:21
RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场

RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场

RL加持的3D生成时代来了!首个「R1 式」文本到3D推理大模型AR3D-R1登场

强化学习(RL)在大语言模型和 2D 图像生成中大获成功后,首次被系统性拓展到文本到 3D 生成领域!面对 3D 物体更高的空间复杂性、全局几何一致性和局部纹理精细化的双重挑战,研究者们首次系统研究了 RL 在 3D 自回归生成中的应用!

来自主题: AI技术研报
8881 点击    2025-12-23 09:27
让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」

让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」

让AI像人类画家一样边画边想,港中文&美团让模型「走一步看一步」

在文生图(Text-to-Image)和视频生成领域,以FLUX.1、Emu3为代表的扩散模型与自回归模型已经能生成极其逼真的画面。

来自主题: AI技术研报
11135 点击    2025-12-22 16:05
扩散语言模型推理太慢?北大团队提出ODB-dLLM框架,破解计算访存双重瓶颈

扩散语言模型推理太慢?北大团队提出ODB-dLLM框架,破解计算访存双重瓶颈

扩散语言模型推理太慢?北大团队提出ODB-dLLM框架,破解计算访存双重瓶颈

基于扩散的大语言模型 (dLLM) 凭借全局解码和双向注意力机制解锁了原生的并行解码和受控生成的潜力,最近吸引了广泛的关注。例如 Fast-dLLM 的现有推理框架通过分块半自回归解码进一步实现了 dLLM 对 KV cache 的支持,挑战了传统自回归 LLMs 的统治地位。

来自主题: AI技术研报
6698 点击    2025-12-11 10:42
何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

一篇入围顶会NeurIPS’25 Oral的论文,狠狠反击了一把DiT(Diffusion Transformer)。这篇来自字节跳动商业化技术团队的论文,则是提出了一个名叫InfinityStar的方法,一举兼得了视频生成的质量和效率,为视频生成方法探索更多可能的路径。

来自主题: AI技术研报
8992 点击    2025-11-14 14:25
2.4万亿参数原生全模态,文心5.0一手实测来了

2.4万亿参数原生全模态,文心5.0一手实测来了

2.4万亿参数原生全模态,文心5.0一手实测来了

刚刚,文心5.0正式发布了!全新一代主打原生全模态,最开始就把语言/图像/视频/音频放在同一套自回归统一架构里,做统一的理解与生成训练。所以,最终模型能够做到支持全模态输入(文字/图片/音频/视频)+全模态输出(文字/图片/音频/视频),创意写作、指令遵循、智能体规划方面也更强了。

来自主题: AI资讯
10249 点击    2025-11-13 21:01
微信、清华连续自回归模型CALM,新范式实现从「离散词元」到「连续向量」转变

微信、清华连续自回归模型CALM,新范式实现从「离散词元」到「连续向量」转变

微信、清华连续自回归模型CALM,新范式实现从「离散词元」到「连续向量」转变

众所周知,大型语言模型(LLM)的根本运作方式是预测下一个 token(词元),能够保证生成的连贯性和逻辑性,但这既是 LLM 强大能力的「灵魂」所在,也是其枷锁,将导致高昂的计算成本和响应延迟。 可

来自主题: AI技术研报
8211 点击    2025-11-09 10:21