AI资讯新闻榜单内容搜索-LLM

从训练到推理的「瘦身」演进：首篇高效扩散语言模型（dLLM）深度综述

在生成式 AI 的浪潮中，自回归（Autoregressive, AR）模型凭借其卓越的性能占据了统治地位。然而，其「从左到右」逐个预测 Token 的串行机制，天生限制了并行生成的可能性。

来自主题: AI技术研报

6254 点击 2026-03-10 14:29

32B逆袭GPT-5.2：首个端到端GPU编程智能体框架StitchCUDA问世

现有的 LLM 自动化 CUDA 方法大多只能优化单个 Kernel，面对完整的端到端 GPU 程序（如整个 VisionTransformer 推理）往往束手无策。

来自主题: AI技术研报

7896 点击 2026-03-05 14:28

数据邪修大法好：仅用文本数据就能预训练多模态大模型

没有图片，也能预训练多模态大模型?在多模态大模型（MLLM）的研发中，行业内长期遵循着一个昂贵的共识：没有图文对（Image-Text Pairs），就没有多模态能力。

来自主题: AI技术研报

8290 点击 2026-03-03 14:25

字节杀疯了！豆包 Seed 2.0 专家模式已上线

我天！感觉 Seed 1.8 发布还没多久，没想到 Doubao-Seed-2.0 这么快就杀到了…今天发都算是晚讯了。据官方介绍，这次 Seed 2.0 多模态理解能力全面升级，还强化了 LLM 与 Agent 能力，模型在真实长链路任务中可以稳定推进。

来自主题: AI资讯

9276 点击 2026-03-02 23:22

让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

中国人民大学团队在论文DLLM-Searcher中，第一次让扩散大语言模型（dLLM）学会了这种“一心二用”的本事。目前主流的搜索Agent，不管是Search-R1还是R1Searcher，用的都是ReAct框架。这个框架的执行流程是严格串行的：

来自主题: AI技术研报

7932 点击 2026-03-02 10:00

DeepSeek新论文来了！联手清华、北大，优化智能体大模型推理

「DeepSeek V4 来了！」这样的消息是不是已经听烦了？总结来说，这篇新论文介绍了一个名为「DualPath」的创新推理系统，专门针对智能体工作负载下的大语言模型（LLM）推理性能进行优化。具体来讲，通过引入「双路径 KV-Cache 加载」机制，解决了在预填充 - 解码（PD）分离架构下，KV-Cache 读取负载不平衡的问题。

来自主题: AI技术研报

8607 点击 2026-02-27 11:35

大语言模型真的会「推理」吗？一项系统性研究梳理 LLM 的结构性推理失败

近期发表于 TMLR 的论文《Large Language Model Reasoning Failures》对这一问题进行了系统性梳理。该研究并未围绕 “模型是否真正理解” 展开哲学层面的争论，而是采取更加务实的路径 —— 通过整理现有文献中的失败现象，构建统一框架，系统分析大语言模型的推理短板。

来自主题: AI技术研报

7831 点击 2026-02-26 10:52

融资34亿！谷歌前TPU员工创业新型芯片，卡帕西也投了

在他们看来，真正的胜负手不在于单点技能拉满，而在于能否在同一颗芯片里，把“训练级吞吐”和“推理级低延迟”同时做好——尤其是在长上下文、Agent循环这些更复杂的真实工作流中。

来自主题: AI资讯

8110 点击 2026-02-25 14:49

ICLR2026 Oral | 当情感识别不再是分类题：EmotionThinker 让 SpeechLLM 学会“解释情绪”

SpeechLLM 是否具备像人类一样解释 “为什么” 做出情绪判断的能力？为此，研究团队提出了EmotionThinker—— 首个面向可解释情感推理（Explainable Emotion Reasoning）的强化学习框架，尝试将 SER 从 “分类任务” 提升为 “多模态证据驱动的推理任务”。

来自主题: AI技术研报

8628 点击 2026-02-25 14:28

AI资讯新闻榜单内容搜索-LLM

从训练到推理的「瘦身」演进：首篇高效扩散语言模型（dLLM）深度综述

32B逆袭GPT-5.2：首个端到端GPU编程智能体框架StitchCUDA问世

推荐系统进入「双动力」时代！首篇LLM-RL协同推荐综述深度解析

数据邪修大法好：仅用文本数据就能预训练多模态大模型

字节杀疯了！豆包 Seed 2.0 专家模式已上线

让搜索Agent不「傻等」：人大团队依托扩散模型实现「一心二用」，边等搜索结果边思考，加速15%性能不减

DeepSeek新论文来了！联手清华、北大，优化智能体大模型推理

大语言模型真的会「推理」吗？一项系统性研究梳理 LLM 的结构性推理失败

融资34亿！谷歌前TPU员工创业新型芯片，卡帕西也投了

ICLR2026 Oral | 当情感识别不再是分类题：EmotionThinker 让 SpeechLLM 学会“解释情绪”