AI资讯新闻榜单内容搜索-语言模型

不是视频模型“学习”慢，而是LLM走捷径｜18万引大牛Sergey Levine

为什么语言模型能从预测下一个词中学到很多，而视频模型却从预测下一帧中学到很少？

来自主题: AI资讯

7116 点击 2025-06-11 11:37

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点

为什么语言模型很成功，视频模型还是那么弱？

来自主题: AI资讯

8222 点击 2025-06-10 16:37

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

测试时扩展（Test-Time Scaling）极大提升了大语言模型的性能，涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么，什么是视觉领域的 test-time scaling？又该如何定义？

来自主题: AI技术研报

7886 点击 2025-06-10 16:18

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

视觉语言模型（VLM）正经历从「感知」到「认知」的关键跃迁。当OpenAI的o3系列通过「图像思维」（Thinking with Images）让模型学会缩放、标记视觉区域时，我们看到了多模态交互的全新可能。

来自主题: AI技术研报

7772 点击 2025-06-10 14:45

大模型强化学习新突破——SPO新范式助力大模型推理能力提升！

当前，强化学习（RL）在提升大语言模型（LLM）推理能力方面展现出巨大潜力。DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型充分证明了 RL 在增强 LLM 复杂推理能力方面的有效性。

来自主题: AI技术研报

7799 点击 2025-06-09 11:02

大语言模型(LLM)面试50题（含答案）

通过这份全面指南探索大语言模型(LLMs)的关键概念、技术和挑战，专为AI爱好者和准备面试的专业人士精心打造。

来自主题: AI资讯

8537 点击 2025-06-08 17:24

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

最近的一篇论文中，来自人大和腾讯的研究者们的研究表明，语言模型对强化学习中的奖励噪音具有鲁棒性，即使翻转相当一部分的奖励（例如，正确答案得 0 分，错误答案得 1 分），也不会显著影响下游任务的表现。

来自主题: AI技术研报

7730 点击 2025-06-08 14:35

多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

8066 点击 2025-06-07 14:20

扩散语言模型扛把子LLaDA迎来新版本，数学、代码、对齐能力均提升

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。朱峰琪、王榕甄、聂燊是中国人民大学高瓴人工智能学院的博士生，导师为李崇轩副教授。

来自主题: AI技术研报

10650 点击 2025-06-07 14:05

多模态推理新基准！最强Gemini 2.5 Pro仅得60分，复旦港中文上海AILab等出品

逻辑推理是人类智能的核心能力，也是多模态大语言模型 (MLLMs) 的关键能力。随着DeepSeek-R1等具备强大推理能力的LLM的出现，研究人员开始探索如何将推理能力引入多模态大模型(MLLMs)

来自主题: AI技术研报

9158 点击 2025-06-07 10:35

AI资讯新闻榜单内容搜索-语言模型

不是视频模型“学习”慢，而是LLM走捷径｜18万引大牛Sergey Levine

大模型是「躲在洞穴里」观察世界？ 强化学习大佬「吹哨」提醒LLM致命缺点

视频生成1.3B碾压14B、图像生成直逼GPT-4o！港科&快手开源测试时扩展新范式

首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

大模型强化学习新突破——SPO新范式助力大模型推理能力提升！

大语言模型(LLM)面试50题（含答案）

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

多模态模型挑战北京杭州地铁图！o3成绩显著，但跟人类有差距

扩散语言模型扛把子LLaDA迎来新版本，数学、代码、对齐能力均提升

多模态推理新基准！最强Gemini 2.5 Pro仅得60分，复旦港中文上海AILab等出品

大模型是「躲在洞穴里」观察世界？强化学习大佬「吹哨」提醒LLM致命缺点