AI资讯新闻榜单内容搜索-大语言模型

大模型如何推理？斯坦福CS25重要一课，DeepMind首席科学家主讲

所有学LLM的人都要知道的内容。这可能是对于大语言模型（LLM）原理最清晰、易懂的解读。

来自主题: AI资讯

8970 点击 2025-08-17 13:49

大模型给自己当裁判并不靠谱！上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大语言模型（LLM）正从工具进化为“裁判”（LLM-as-a-judge），开始大规模地评判由AI自己生成的内容。这种高效的评估范式，其可靠性与人类判断的一致性，却很少被深入验证。

来自主题: AI技术研报

8168 点击 2025-08-17 13:16

告别Transformer，重塑机器学习范式：上海交大首个「类人脑」大模型诞生

当前 GPT 类大语言模型的表征和处理机制，仅在输入和输出接口层面对语言元素保持可解释的语义映射。相比之下，人类大脑直接在分布式的皮层区域中编码语义，如果将其视为一个语言处理系统，它本身就是一个在全局上可解释的「超大模型」。

来自主题: AI技术研报

8735 点击 2025-08-14 11:11

腾讯AI Lab|让AI左右互搏，无需人类数据也能自学成才！

当前训练强大的大语言模型（LLM），就像是培养一个顶尖运动员，需要大量的、由专家（人类标注员）精心设计的训练计划和教材（高质量的标注数据）。

来自主题: AI资讯

9640 点击 2025-08-13 11:55

从物竞天择到智能进化，首篇自进化智能体综述的ASI之路

近年来，大语言模型（LLM）已展现出卓越的通用能力，但其核心仍是静态的。面对日新月异的任务、知识领域和交互环境，模型无法实时调整其内部参数，这一根本性瓶颈日益凸显。

来自主题: AI技术研报

8424 点击 2025-08-13 11:32

Attention Sink产生的起点？清华&美团首次揭秘MoE LLM中的超级专家机制

稀疏激活的混合专家模型（MoE）通过动态路由和稀疏激活机制，极大提升了大语言模型（LLM）的学习能力，展现出显著的潜力。基于这一架构，涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。

来自主题: AI技术研报

8502 点击 2025-08-12 11:07

从开源项目到2500万美元融资：如何打造下一代AI Agent的互联网基础设施

Tavily AI 的故事开始于一个开源项目。创始人 Rotem Weiss 在 2023 年创建了一个叫做 GPT Researcher 的开源工具，目的是让大语言模型能够获取实时的网络数据。当时 ChatGPT 还没有接入互联网搜索功能，这个小工具迅速在开发者社区中走红，收获了近 2 万个 GitHub stars。

来自主题: AI资讯

10481 点击 2025-08-11 14:14