传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?
传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?高质量数据枯竭,传统预训练走向终点,大模型如何突破瓶颈?
高质量数据枯竭,传统预训练走向终点,大模型如何突破瓶颈?
随着智能手机和物联网设备普及,移动端AI成为趋势,带来离线运行、低延迟、隐私保护等优势。然而,模型本地存储同时带来了严重风险。
Llama 4被曝在大模型竞技场作弊后,重新上架了非特供版模型。但是你很可能没发现它。因为排名一下子从第2掉到了第32,要往下翻好久才能看到。
Qwen 3还未发布,但已发布的Qwen系列含金量还在上升。2个月前,李飞飞团队基于Qwen2.5-32B-Instruct 模型,以不到50美元的成本训练出新模型 S1-32B,取得了与 OpenAI 的 o1 和 DeepSeek 的 R1 等尖端推理模型数学及编码能力相当的效果。如今,他们的视线再次投向了这个国产模型。
昨天,是国产 AI 六小虎之一百川智能成立的两周年,CEO 王小川发布全员信强调公司方向: “ 减少多余动作,专注医学方向。”要知道,两年前,百川智能刚成立的时候,其愿景可是 “ 旨在打造中国版的 OpenAI 基础大模型及颠覆性上层应用 ”,非常宏大。
神秘免费 AI 模型 Quasar Alpha 上线,性能出色引发关注
字节跳动豆包团队今天发布了自家新推理模型 Seed-Thinking-v1.5 的技术报告。从报告中可以看到,这是一个拥有 200B 总参数的 MoE 模型,每次工作时会激活其中 20B 参数。其表现非常惊艳,在各个领域的基准上都超过了拥有 671B 总参数的 DeepSeek-R1。有人猜测,这就是字节豆包目前正在使用的深度思考模型。
印度人工智能初创公司 Ziroh Labs ,与该国顶尖技术学院的研究人员合作,设计出一套经济实惠的系统,据称无需依赖英伟达公司等提供的高端计算芯片,即可运行大型 AI 模型。
蚂蚁集团副总裁、前百灵大模型一号位徐鹏(花名:无改),已于近日离职;此外,据「市象」了解,基于蚂蚁百灵大模型的AI应用支小宝团队也在近期面临团队人员调整。
大家还记得那个 ICLR 2025 首次满分接收、彻底颠覆静态图像光照编辑的工作 IC-Light 吗?