AI资讯新闻榜单内容搜索-LLM

你知道吗？相较于产生幻觉，LLM其实更会「说谎」｜卡梅隆最新

幻觉并非什么神秘现象，而是现代语言模型训练和评估方式下必然的统计结果。它是一种无意的、因不确定而产生的错误。根据OpenAI9月4号论文的证明，模型产生幻觉(Hallucination)，是一种系统性缺陷。

来自主题: AI技术研报

7718 点击 2025-09-12 10:41

全新MoE架构！阿里开源Qwen3-Next，训练成本直降9成

训练、推理性价比创新高。大语言模型（LLM），正在进入 Next Level。周五凌晨，阿里通义团队正式发布、开源了下一代基础模型架构 Qwen3-Next。总参数 80B 的模型仅激活 3B ，性能就可媲美千问 3 旗舰版 235B 模型，也超越了 Gemini-2.5-Flash-Thinking，实现了模型计算效率的重大突破。

来自主题: AI资讯

10454 点击 2025-09-12 10:10

成立7个月首发声！百亿美金独角兽万字雄文：攻克LLM推理非确定性难题

Thinking Machines Lab成立7个月，估值120亿美元，首次公开研究成果：LLM每次回答不一样的真凶——kernel缺乏批处理不变性。Lilian Weng更是爆猛料：首代旗舰叫 Connection Machine，还有更多在路上。

来自主题: AI技术研报

7119 点击 2025-09-11 19:54

她们估值840亿，刚发了第一个AI成果

刚刚，0产出估值就已冲破120亿美元的Thinking Machines，终于发布首篇研究博客。

来自主题: AI技术研报

6459 点击 2025-09-11 17:21

谷歌AI新里程碑：一个能「做研究」的系统诞生了，用LLM+树搜索编写专家级软件

大模型在科研领域越来越高效了。

来自主题: AI技术研报

8974 点击 2025-09-11 11:40

从第一性原理出发的RAG推理新范式来了，蚂蚁DIVER登顶权威基准

在当前由大语言模型（LLM）驱动的技术范式中，检索增强生成（RAG）已成为提升模型知识能力与缓解「幻觉」的核心技术。然而，现有 RAG 系统在面对需多步逻辑推理任务时仍存在显著局限，具体挑战如下：

来自主题: AI技术研报

8957 点击 2025-09-10 11:07

英伟达推出通用深度研究系统，可接入任何LLM，支持个人定制

英伟达也做深度研究智能体了。

来自主题: AI资讯

7583 点击 2025-09-09 11:58

从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述

过去几年，大语言模型（LLM）的训练大多依赖于基于人类或数据偏好的强化学习（Preference-based Reinforcement Fine-tuning, PBRFT）：输入提示、输出文本、获得一个偏好分数。这一范式催生了 GPT-4、Llama-3 等成功的早期大模型，但局限也日益明显：缺乏长期规划、环境交互与持续学习能力。

来自主题: AI技术研报

8100 点击 2025-09-09 10:49

不微调，让LLM推理准确率暴增到99%！试下DeepConf，一个轻量级推理框架｜Meta最新

在大型语言模型（LLM）进行数学题、逻辑推理等复杂任务时，一个非常流行且有效的方法叫做 “自洽性”（Self-Consistency），通常也被称为“平行思考”。

来自主题: AI技术研报

5928 点击 2025-09-09 10:17

扎克伯格的豪赌初见成效？Meta新方法让LLM长上下文处理提速30倍

经历了前段时间的鸡飞狗跳，扎克伯格的投资似乎终于初见成效。

来自主题: AI技术研报

6707 点击 2025-09-08 16:30