AI资讯新闻榜单内容搜索-语言模型

你知道吗？相较于产生幻觉，LLM其实更会「说谎」｜卡梅隆最新

幻觉并非什么神秘现象，而是现代语言模型训练和评估方式下必然的统计结果。它是一种无意的、因不确定而产生的错误。根据OpenAI9月4号论文的证明，模型产生幻觉(Hallucination)，是一种系统性缺陷。

来自主题: AI技术研报

7095 点击 2025-09-12 10:41

全新MoE架构！阿里开源Qwen3-Next，训练成本直降9成

训练、推理性价比创新高。大语言模型（LLM），正在进入 Next Level。周五凌晨，阿里通义团队正式发布、开源了下一代基础模型架构 Qwen3-Next。总参数 80B 的模型仅激活 3B ，性能就可媲美千问 3 旗舰版 235B 模型，也超越了 Gemini-2.5-Flash-Thinking，实现了模型计算效率的重大突破。

来自主题: AI资讯

9666 点击 2025-09-12 10:10

李飞飞一年前究竟说了啥？怎么又火了

大语言模型的局限在哪里？

来自主题: AI技术研报

8521 点击 2025-09-11 19:26

意识智能体：大模型的下一个进化方向？

机器具备意识吗？本文对AI意识（AI consciousness）进行了考察，特别是深入探讨了大语言模型作为高级计算模型实例是否具备意识，以及AI意识的必要和充分条件。

来自主题: AI技术研报

7810 点击 2025-09-11 09:55

从第一性原理出发的RAG推理新范式来了，蚂蚁DIVER登顶权威基准

在当前由大语言模型（LLM）驱动的技术范式中，检索增强生成（RAG）已成为提升模型知识能力与缓解「幻觉」的核心技术。然而，现有 RAG 系统在面对需多步逻辑推理任务时仍存在显著局限，具体挑战如下：

来自主题: AI技术研报

8266 点击 2025-09-10 11:07

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

过去几年，大语言模型（LLM）的训练大多依赖于基于人类或数据偏好的强化学习（Preference-based Reinforcement Fine-tuning, PBRFT）：输入提示、输出文本、获得一个偏好分数。这一范式催生了 GPT-4、Llama-3 等成功的早期大模型，但局限也日益明显：缺乏长期规划、环境交互与持续学习能力。

来自主题: AI技术研报

7516 点击 2025-09-09 10:49

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

在大型语言模型（LLM）进行数学题、逻辑推理等复杂任务时，一个非常流行且有效的方法叫做 “自洽性”（Self-Consistency），通常也被称为“平行思考”。

来自主题: AI技术研报

5240 点击 2025-09-09 10:17

斯坦福：优化器「诸神之战」？AdamW 凭「稳定」胜出

自2014 年提出以来，Adam 及其改进版 AdamW 长期占据开放权重语言模型预训练的主导地位，帮助模型在海量数据下保持稳定并实现较快收敛。

来自主题: AI技术研报

6708 点击 2025-09-08 16:18

断供？会“刻意练习”的Qwen2.5-3B，竟然超越Claude3.5！斯坦福最新

来自斯坦福的研究者们最近发布的一篇论文（https://arxiv.org/abs/2509.01684）直指RL强化学习在机器学习工程（Machine Learning Engineering）领域的两个关键问题，并克服了它们，最终仅通过Qwen2.5-3B便在MLE任务上超越了仅依赖提示（prompting）的、规模更大的静态语言模型Claude3.5。

来自主题: AI资讯

6372 点击 2025-09-06 11:35

0.01%参数定生死！苹果揭秘LLM「超级权重」，删掉就会胡说八道

苹果研究人员发现，在大模型中，极少量的参数，即便只有0.01%，仍可能包含数十万权重，他们将这一发现称为「超级权重」。超级权重点透了大模型「命门」，使大模型走出「炼丹玄学」。

来自主题: AI技术研报

7199 点击 2025-09-06 11:27