AI资讯新闻榜单内容搜索-模型推理

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
搜索: 模型推理
CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架

CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架

CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架

本文第一作者为前阿里巴巴达摩院高级技术专家,现一年级博士研究生满远斌,研究方向为高效多模态大模型推理和生成系统。通信作者为第一作者的导师,UTA 计算机系助理教授尹淼。尹淼博士目前带领 7 人的研究团队,主要研究方向为多模态空间智能系统,致力于通过软件和系统的联合优化设计实现空间人工智能的落地。

来自主题: AI技术研报
7918 点击    2025-06-09 14:51
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

大模型强化学习新突破——SPO新范式助力大模型推理能力提升!

当前,强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。

来自主题: AI技术研报
6223 点击    2025-06-09 11:02
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

近期arxiv最热门论文,Qwen&清华LeapLab团队最新成果: 在强化学习训练大模型推理能力时,仅仅20%的高熵token就能撑起整个训练效果,甚至比用全部token训练还要好。

来自主题: AI技术研报
5840 点击    2025-06-06 11:08
与Gemini Diffusion共振!首个扩散式「发散思维链」来了

与Gemini Diffusion共振!首个扩散式「发散思维链」来了

与Gemini Diffusion共振!首个扩散式「发散思维链」来了

近年来,思维链在大模型训练和推理中愈发重要。近日,西湖大学 MAPLE 实验室齐国君教授团队首次提出扩散式「发散思维链」—— 一种面向扩散语言模型的新型大模型推理范式。该方法将反向扩散过程中的每一步中间结果都看作大模型的一个「思考」步骤,然后利用基于结果的强化学习去优化整个生成轨迹,最大化模型最终答案的正确率。

来自主题: AI技术研报
5807 点击    2025-05-27 13:21
帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈

帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈

帮大模型提速80%,华为拿出昇腾推理杀手锏FlashComm,三招搞定通算瓶颈

在今年 2 月的 DeepSeek 开源周中,大模型推理过程中并行策略和通信效率的深度优化成为重点之一。在今年 2 月的 DeepSeek 开源周中,大模型推理过程中并行策略和通信效率的深度优化成为重点之一。

来自主题: AI技术研报
6325 点击    2025-05-23 10:18
ICML 2025|如何凭「自动补全」实现100K生成3×加速?

ICML 2025|如何凭「自动补全」实现100K生成3×加速?

ICML 2025|如何凭「自动补全」实现100K生成3×加速?

在当前大模型推理愈发复杂的时代,如何快速、高效地产生超长文本,成为了模型部署与优化中的一大核心挑战。

来自主题: AI技术研报
7232 点击    2025-05-18 14:38