Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制
Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制稀疏激活的混合专家模型(MoE)通过动态路由和稀疏激活机制,极大提升了大语言模型(LLM)的学习能力,展现出显著的潜力。基于这一架构,涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。
稀疏激活的混合专家模型(MoE)通过动态路由和稀疏激活机制,极大提升了大语言模型(LLM)的学习能力,展现出显著的潜力。基于这一架构,涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。
蛋白质模型的GPT时刻来了! 清华大学智能产业研究院(AIR)周浩副教授课题组联合上海人工智能实验室发布了AMix-1: 首次以Scaling Law、Emergent Ability、In-Context Learning和Test-time Scaling的系统化方法论来构建蛋白质基座模型。
每次打开导航的,导航软件在一秒内给出一个最速路线的时候,你有没有好奇过它是怎么找到这条路的? 假如不考虑堵车、红绿灯等交通影响因素,仅找到一条最短最快的路线,那不论如何也逃不掉 Dijkstra 算法。
27M小模型超越o3-mini-high和DeepSeek-R1!推理还不靠思维链。 开发者是那位拒绝了马斯克、还要挑战Transformer的00后清华校友,Sapient Intelligence的创始人王冠。
本科经典算法Dijkstra,被清华团队超越了! 这个被用来解决最短路径问题的经典算法,去年才被图灵奖得主Tarjan团队证明具有普遍最优性。
从“模型即服务”(MaaS)到“智能体即服务”(AaaS)的转变,标志着AI行业进入了新的发展阶段。我们不再满足于AI的“对话能力”,而是期望它能成为自主完成复杂任务的“全能机器人”。
国内著名AI青年科学家,清华大学电子工程系副教授代季峰,近日加盟陈天桥旗下盛大网络,正筹备一家新的AI创业公司。《科创板日报》独家获悉,盛大创始人陈天桥对代季峰领衔的这家新AI创业公司寄予厚望,并明确公司的三大研发重点:AI商业决策智能化、突破算法茧房的内容分发,以及面向老龄化和青年发展的AI服务。
AI 科技评论独家获悉,近日盛大网络挖角清华大学电子工程系副教授代季锋,正在筹备一家新的 AGI 公司,号称“对标 DeepSeek”,已有多位技术人才被猎头接触、介绍该团队的工作机会。
无需谷歌“钞能力”,两位清华校友强强联合,直接让基础模型Gemini 2.5 Pro轻松达到IMO金牌水平。
硬氪获悉,北京驯鹿智能科技(以下简称“驯鹿AI”)近日完成数千万人民币A+轮融资,本轮融资由坤言资本和IDG领投,万世资本和源合资本担任专业顾问。融资资金主要用于进一步加速公司在智能销售与客服机器人领域的技术研发和市场拓展,助力更多企业实现全流程智能化服务,提升业务运营效率。