AI资讯新闻榜单内容搜索-大模

大模型推理学习新范式！ExGRPO框架：从盲目刷题到聪明复盘

大模型在强化学习过程中，终于知道什么经验更宝贵了！来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队，最近提出了一套经验管理和学习框架ExGRPO—— 通过科学地识别、存储、筛选和学习有价值的经验，让大模型在优化推理能力的道路上，走得更稳、更快、更远。

来自主题: AI技术研报

5313 点击 2025-10-23 15:42

医疗幻觉率比DeepSeek低3倍，百川循证增强大模型横扫全球医学考试！

时隔两月，Baichuan-M2 Plus重磅出世！成为业内首个循证增强的医疗大模型，幻觉要比DeepSeek-R1低3倍，可信度比肩资深临床专家。新模型将「循证医学」理念深度融入训练和推理，通过首创「六源循证范式」，模拟人类医生思维，有效辨别不同层级医学证据、评估其可靠性，并在回答中优先引用高等级证据。

来自主题: AI资讯

7615 点击 2025-10-23 12:47

智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

随着多模态大模型的不断演进，指令引导的图像编辑（Instruction-guided Image Editing）技术取得了显著进展。然而，现有模型在遵循复杂、精细的文本指令方面仍面临巨大挑战，往往需要用户进行多次尝试和手动筛选，难以实现稳定、高质量的「一步到位」式编辑。

来自主题: AI技术研报

9093 点击 2025-10-23 12:28

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

来自主题: AI技术研报

5786 点击 2025-10-23 11:41

如果中国大模型不再开源

美国 AI 圈开始出现“担心中国开源断供”的苗头了吗？10 月 20 日，在专注于开源模型讨论、拥有 55 万成员的 Reddit 分论坛“r/LocalLLaMA”上，一位网友发布了一则“当中国公司停止提供开源模型时会发生什么？”的提问，并表达了假如中国模型逐渐闭源或开始收费该怎么办的担忧。

来自主题: AI资讯

7169 点击 2025-10-22 15:06

长序列推理不再卡顿！北大华为KV缓存管理框架实现4.7倍推理加速

北大华为联手推出KV cache管理新方式，推理速度比前SOTA提升4.7倍！大模型处理长序列时，KV cache的内存占用随序列长度线性增长，已成为制约模型部署的严峻瓶颈。

来自主题: AI技术研报

6011 点击 2025-10-22 14:52

比人类网瘾更可怕，AI患上“脑腐”后彻底没救

“脑腐”（Brain Rot）指的是接触了过多社交媒体的低质量、碎片化信息后，人类的精神和智力状态恶化，如同腐烂一般。它曾入选 2024 年牛津大学出版社年度热词。

来自主题: AI技术研报

7391 点击 2025-10-22 12:02

清华、快手提出AttnRL：让大模型用「注意力」探索

从 AlphaGo 战胜人类棋手，到 GPT 系列展现出惊人的推理与语言能力，强化学习（Reinforcement Learning, RL）一直是让机器「学会思考」的关键驱动力。

来自主题: AI技术研报

6890 点击 2025-10-22 11:46

喂了几个月的垃圾推文，大模型得了「脑腐」，这病还治不好

天天刷推，大模型的脑子也会坏掉。终于有研究证明，互联网上的烂内容会让大模型得「脑腐」。相信许多读者对「脑腐」这个词并不陌生，长时间沉浸在碎片化的网络信息中，我们经常会感到注意力下降、思维变钝。

来自主题: AI技术研报

5669 点击 2025-10-21 16:18

RewardMap: 通过多阶段强化学习解决细粒度视觉推理的Sparse Reward

近年来，大语言模型（LLMs）以及多模态大模型（MLLMs）在多种场景理解和复杂推理任务中取得突破性进展。

来自主题: AI技术研报

5567 点击 2025-10-21 15:53