AI资讯新闻榜单内容搜索-语言模型

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

最近的一篇论文中，来自人大和腾讯的研究者们的研究表明，语言模型对强化学习中的奖励噪音具有鲁棒性，即使翻转相当一部分的奖励（例如，正确答案得 0 分，错误答案得 1 分），也不会显著影响下游任务的表现。

来自主题: AI技术研报

8184 点击 2025-06-08 14:35

多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

8663 点击 2025-06-07 14:20

扩散语言模型扛把子LLaDA迎来新版本，数学、代码、对齐能力均提升

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。朱峰琪、王榕甄、聂燊是中国人民大学高瓴人工智能学院的博士生，导师为李崇轩副教授。

来自主题: AI技术研报

11249 点击 2025-06-07 14:05

多模态推理新基准！最强Gemini 2.5 Pro仅得60分，复旦港中文上海AILab等出品

逻辑推理是人类智能的核心能力，也是多模态大语言模型 (MLLMs) 的关键能力。随着DeepSeek-R1等具备强大推理能力的LLM的出现，研究人员开始探索如何将推理能力引入多模态大模型(MLLMs)

来自主题: AI技术研报

9674 点击 2025-06-07 10:35

真实联网搜索Agent，7B媲美满血R1，华为盘古DeepDiver给出开域信息获取新解法

大型语言模型 (LLM) 的发展日新月异，但实时「内化」与时俱进的知识仍然是一项挑战。如何让模型在面对复杂的知识密集型问题时，能够自主决策获取外部知识的策略？

来自主题: AI技术研报

9038 点击 2025-06-05 16:43

ACL 2025 | 基于Token预算感知的大模型高效推理技术

随着大型语言模型（LLM）技术的不断发展，Chain-of-Thought（CoT）等推理增强方法被提出，以期提升模型在数学题解、逻辑问答等复杂任务中的表现，并通过引导模型逐步思考，有效提高了模型准确率。

来自主题: AI技术研报

7449 点击 2025-06-05 16:14

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

强化学习（RL）到底是语言模型能力进化的「发动机」，还是只是更努力地背题、换个方式答题？这个问题，学界争论已久：RL 真能让模型学会新的推理技能吗，还是只是提高了已有知识的调用效率？

来自主题: AI技术研报

8057 点击 2025-06-05 10:27

冲击自回归，扩散模型正在改写下一代通用模型范式

上个月 21 号，Google I/O 2025 开发者大会可说是吸睛无数，各种 AI 模型、技术、工具、服务、应用让人目不暇接。在这其中，Gemini Diffusion 绝对算是最让人兴奋的进步之一。从名字看得出来，这是一个采用了扩散模型的 AI 模型，而这个模型却并非我们通常看到的扩散式视觉生成模型，而是一个地地道道的语言模型！

来自主题: AI技术研报

8611 点击 2025-06-04 14:04

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造

首个专为ALLMs（音频大语言模型）设计的多维度可信度评估基准来了。

来自主题: AI技术研报

10772 点击 2025-06-03 15:11

AI资讯新闻榜单内容搜索-语言模型

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

扩散语言模型扛把子LLaDA迎来新版本，数学、代码、对齐能力均提升

多模态推理新基准！最强Gemini 2.5 Pro仅得60分，复旦港中文上海AILab等出品

真实联网搜索Agent，7B媲美满血R1，华为盘古DeepDiver给出开域信息获取新解法

ACL 2025 | 基于Token预算感知的大模型高效推理技术

英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

最新发现！每参数3.6比特，语言模型最多能记住这么多

冲击自回归，扩散模型正在改写下一代通用模型范式

音频大模型安全可信度的全面“体检”！6大维度，清华南洋理工联手打造