AI资讯新闻榜单内容搜索-LLaDA

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: LLaDA
扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源

扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源

扩散语言模型有MoE版了!蚂蚁&人大从头训练LLaDA-MoE,将完全开源

挑战自回归的扩散语言模型刚刚迎来了一个新里程碑:蚂蚁集团和人大联合团队用 20T 数据,从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B,但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B,而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。

来自主题: AI技术研报
7023 点击    2025-09-15 08:30
扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升

扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升

扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。朱峰琪、王榕甄、聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。

来自主题: AI技术研报
9600 点击    2025-06-07 14:05
不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果

不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果

不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果

当前的 AI 领域,可以说 Transformer 与扩散模型是最热门的模型架构。也因此,有不少研究团队都在尝试将这两种架构融合到一起,以两者之长探索新一代的模型范式,比如我们之前报道过的 LLaDA。不过,之前这些成果都还只是研究探索,并未真正实现大规模应用。

来自主题: AI技术研报
9821 点击    2025-02-27 14:40
语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3

语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3

语言模型新范式:首个8B扩散大语言模型LLaDA发布,性能比肩LLaMA 3

近年来,大语言模型(LLMs)取得了突破性进展,展现了诸如上下文学习、指令遵循、推理和多轮对话等能力。目前,普遍的观点认为其成功依赖于自回归模型的「next token prediction」范式。

来自主题: AI技术研报
7622 点击    2025-02-17 14:37