
微软、国科大开启1Bit时代:大模型转三进制,速度快4倍能耗降至1/41
微软、国科大开启1Bit时代:大模型转三进制,速度快4倍能耗降至1/41今天凌晨,由微软、国科大等机构提交的一篇论文在 AI 圈里被人们争相转阅。该研究提出了一种 1-bit 大模型,实现效果让人只想说两个字:震惊。
今天凌晨,由微软、国科大等机构提交的一篇论文在 AI 圈里被人们争相转阅。该研究提出了一种 1-bit 大模型,实现效果让人只想说两个字:震惊。
现在,大语言模型(LLM)迎来了“1-bit时代”。
“AI驱动”已覆盖AI基础设施、通用大模型、垂直模型及电商、办公等场景化应用。2月7日,阿里巴巴集团发布2024财年第三季度业绩。在“用户为先、AI驱动”的战略执行下,公司核心业务的结构性调整收获初步成效,集团季度收入实现5%的稳定增长。
2023 年 12 月,首个开源 MoE 大模型 Mixtral 8×7B 发布,在多种基准测试中,其表现近乎超越了 GPT-3.5 和 LLaMA 2 70B,而推理开销仅相当于 12B 左右的稠密模型。为进一步提升模型性能,稠密 LLM 常由于其参数规模急剧扩张而面临严峻的训练成本。
Mixtral 8x7B模型开源后,AI社区再次迎来一大波微调实践。来自Nous Research应用研究小组团队微调出新一代大模型Nous-Hermes 2 Mixtral 8x7B,在主流基准测试中击败了Mixtral Instruct。
从 Llama、Llama 2 到 Mixtral 8x7B,开源模型的性能记录一直在被刷新。由于 Mistral 8x7B 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5,因此它也被认为是一种「非常接近 GPT-4」的开源选项。
人机交互变革前夜,谁拿下了主动权?就在刚刚,首个基于AI意图识别的人机交互(IUI)操作系统正式发布!
爆火社区的Mixtral 8x7B模型,今天终于放出了arXiv论文!所有模型细节全部公开了。
前段时间,Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区,其架构与 GPT-4 非常相似,很多人将其形容为 GPT-4 的「缩小版」。
混合专家模型(MoE)成为最近关注的热点。