AI资讯新闻榜单内容搜索-模型训练

登顶Hugging Face论文热榜，LLM重写数据准备的游戏规则

来自上海交通大学、清华大学、微软研究院、麻省理工学院（MIT）、上海 AI Lab、小红书、阿里巴巴、港科大（广州）等机构的研究团队，系统梳理了近年来大语言模型在数据准备流程中的角色变化，试图回答一个业界关心的问题：LLM 能否成为下一代数据管道的「智能语义中枢」，彻底重构数据准备的范式？

来自主题: AI技术研报

9387 点击 2026-02-09 11:12

人形机器人的真机强化学习! ICLR 2026 通研院提出人形机器人预训练与真机微调新范式

目前，人形机器人已经能在现实中跳舞、奔跑、甚至完成后空翻。但接下来更关键的问题是：这些系统能否在部署之后持续地进行强化学习 —— 在真实世界的反馈中变得更稳定、更可靠，并在分布不断变化的新环境里持续适应与改进？

来自主题: AI技术研报

11346 点击 2026-02-08 11:56

小米给KV Cache减负80%！MiMo团队推出混合稀疏注意力架构

小米MiMo大模型团队，加入AI拜年战场——推出HySparse，一种面向Agent时代的混合稀疏注意力架构。

来自主题: AI技术研报

8559 点击 2026-02-08 11:53

ICLR 2026｜UIUC：一行代码彻底解决LLM推理的过度思考！

2025 年 1 月 20 日，DeepSeek 发布了推理大模型 DeepSeek-R1，在学术界和工业界引发了对大模型强化学习方法的广泛关注与研究热潮。研究者发现，在数学推理等具有明确答案的任务

来自主题: AI技术研报

7856 点击 2026-02-08 11:52

AgentDoG：为AI智能体戴上「诊断项圈」

随着 AI 智能体（Agent）能力日益强大，其自主行为带来的安全风险也愈发复杂。现有安全工具往往只能给出「安全 / 不安全」的简单判断，无法告知我们风险的根源。为此，上海人工智能实验室正式开源 Ag

来自主题: AI技术研报

9063 点击 2026-02-08 11:49

像挖币一样挖激活函数？DeepMind搭建「算力矿场」，暴力搜出下一代ReLU

一直以来，神经网络的激活函数就像是 AI 引擎中的火花塞。从早期的 Sigmoid、Tanh，到后来统治业界的 ReLU，再到近年来的 GELU 和 Swish，每一次激活函数的演进都伴随着模型性能的提升。但长期以来，寻找最佳激活函数往往依赖于人类直觉或有限的搜索空间。

来自主题: AI技术研报

7370 点击 2026-02-08 11:47

延迟下降20×，token减少4.4×！突破多智能体「共识」瓶颈

过去一年，LLM Agent几乎成为所有 AI 研究团队与工业界的共同方向。OpenAI在持续推进更强的推理与工具使用能力，Google DeepMind将推理显式建模为搜索问题，Anthropic则通过规范与自我批判提升模型可靠性。

来自主题: AI技术研报

10906 点击 2026-02-07 14:04

Attention真的可靠吗？上海大学联合南开大学揭示多模态模型中一个被忽视的重要偏置问题

近年来，Vision-Language Models（视觉 — 语言模型）在多模态理解任务中取得了显著进展，并逐渐成为通用人工智能的重要技术路线。然而，这类模型在实际应用中往往面临推理开销大、效率受限的问题，研究者通常依赖 visual token pruning 等策略降低计算成本，其中 attention 机制被广泛视为衡量视觉信息重要性的关键依据。

来自主题: AI技术研报

11460 点击 2026-02-06 10:39

Stable-DiffCoder超越自回归模型！扩散模型在代码生成取得新突破

扩散语言模型（Diffusion Language Models, DLLMs）因其多种潜在的特性而备受关注，如能加速的非自回归并行生成特性，能直接起草编辑的特性，能数据增强的特性。然而，其模型能力往往落后于同等规模的强力自回归（AR）模型。

来自主题: AI技术研报

11659 点击 2026-02-06 10:37

强化学习远不是最优，CMU刚刚提出最大似然强化学习

在大模型时代，从代码生成到数学推理，再到自主规划的 Agent 系统，强化学习几乎成了「最后一公里」的标准配置。

来自主题: AI技术研报

7923 点击 2026-02-06 10:34