AI资讯新闻榜单内容搜索-大语言模型

速递｜Seed大模型负责人被开除，牵涉未申报关系，年薪千万+数亿期权或打水漂

根据申妈朋友圈，字节跳动发布了新一期廉政通报，披露了一起涉及 Seed 团队高层的严重违规事件。据报道，Seed 大语言模型负责人乔木与其团队所配属的一名 HRBP 在未履行申报流程的情况下，发展成为亲密关系。

来自主题: AI资讯

7680 点击 2025-06-24 12:02

提升大模型内在透明度：无需外部模块实现高效监控与自发安全增强｜上海AI Lab & 上交

大语言模型（LLM）能力提升引发对潜在风险的担忧，洞察其内部“思维过程”、识别危险信号成AI安全核心挑战。

来自主题: AI技术研报

9064 点击 2025-06-23 14:58

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

大语言模型在数学证明中常出现推理漏洞，如跳步或依赖特殊值。斯坦福等高校团队提出IneqMath基准，将不等式证明拆解为可验证的子任务。结果显示，模型的推理正确率远低于答案正确率，暴露出其在数学推理上的缺陷。

来自主题: AI技术研报

9988 点击 2025-06-23 14:41

大模型到底是怎么「思考」的？第一篇系统性综述SAE的文章来了

在 ChatGPT 等大语言模型（LLMs）席卷全球的今天，越来越多的研究者意识到：我们需要的不只是 “会说话” 的 LLM，更是 “能解释” 的 LLM。

来自主题: AI技术研报

9510 点击 2025-06-22 16:25

舍弃CUDA编程！CMU等用几十行代码将LLM编译成巨型内核，推理延迟可降6.7倍

在 AI 领域，英伟达开发的 CUDA 是驱动大语言模型（LLM）训练和推理的核心计算引擎。

来自主题: AI资讯

8658 点击 2025-06-22 12:07

知识储备≠模型能力！DeepMind强化学习微调：大幅缩小「知行差距」

大语言模型（LLMs）在决策场景中常因贪婪性、频率偏差和知行差距表现欠佳。研究者提出强化学习微调（RLFT），通过自我生成的推理链（CoT）优化模型，提升决策能力。实验表明，RLFT可增加模型探索性，缩小知行差距，但探索策略仍有改进空间。

来自主题: AI技术研报

8148 点击 2025-06-22 11:34

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT

大语言模型解决不等式证明问题时，可以给出正确答案，但大多数时候是靠猜。推理过程经不起推敲，逻辑完全崩溃。

来自主题: AI技术研报

7821 点击 2025-06-20 09:48

20个样本，搞定多模态思维链！UCSC重磅开源：边画框，边思考

GRIT能让多模态大语言模型（MLLM）通过生成自然语言和图像框坐标结合的推理链进行「图像思维」，仅需20个训练样本即可实现优越性能！

来自主题: AI技术研报

9399 点击 2025-06-19 11:03

北航等机构发布最新综述：大语言模型集成 | ArXiv 2025

LLM Ensemble（大语言模型集成）在近年来快速地获得了广泛关注。它指的是在下游任务推理阶段，综合考虑并利用多个大语言模型（每个模型都旨在处理用户查询），从而发挥它们各自的优势。大语言模型的广泛可得性，以及其开箱即用的特性和各个模型所具备的不同优势，极大地推动了 LLM Ensemble 领域的发展。

来自主题: AI技术研报

9918 点击 2025-06-17 17:03

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

思维链（Chain of Thought, CoT）推理方法已被证明能够显著提升大语言模型（LLMs）在复杂任务中的表现。而在多模态大语言模型（MLLMs）中，CoT 同样展现出了巨大潜力。

来自主题: AI技术研报

10560 点击 2025-06-17 10:21

AI资讯新闻榜单内容搜索-大语言模型

速递｜Seed大模型负责人被开除，牵涉未申报关系，年薪千万+数亿期权或打水漂

提升大模型内在透明度：无需外部模块实现高效监控与自发安全增强｜上海AI Lab & 上交

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

大模型到底是怎么「思考」的？第一篇系统性综述SAE的文章来了

舍弃CUDA编程！CMU等用几十行代码将LLM编译成巨型内核，推理延迟可降6.7倍

知识储备≠模型能力！DeepMind强化学习微调：大幅缩小「知行差距」

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜ 斯坦福&伯克利&MIT

20个样本，搞定多模态思维链！UCSC重磅开源：边画框，边思考

北航等机构发布最新综述：大语言模型集成 | ArXiv 2025

细粒度视觉推理链引入数学领域，准确率暴涨32%，港中文MMLab打破多模态数学推理瓶颈

AI哪怕答案正确，逻辑链却惨不忍睹，奥数级不等式证明成功率不到50%｜斯坦福&伯克利&MIT