AI资讯新闻榜单内容搜索-Moe

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Moe
顶流Mamba竟遭ICLR拒稿,学者集体破防变????,LeCun都看不下去了

顶流Mamba竟遭ICLR拒稿,学者集体破防变????,LeCun都看不下去了

顶流Mamba竟遭ICLR拒稿,学者集体破防变????,LeCun都看不下去了

一项ICLR拒稿结果让AI研究者集体破防,纷纷刷起小丑符号。争议论文为Transformer架构挑战者Mamba,开创了大模型的一个新流派。发布两个月不到,后续研究MoE版本、多模态版本等都已跟上。

来自主题: AI资讯
5040 点击    2024-01-27 10:57
MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数

MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数

MoE与Mamba强强联合,将状态空间模型扩展到数百亿参数

状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。而基于选择性 SSM 和硬件感知型设计的 Mamba 更是表现出色,成为了基于注意力的 Transformer 架构的一大有力替代架构。

来自主题: AI技术研报
10309 点击    2024-01-23 15:09
从Google Gemini到OpenAI Q*:生成式AI研究领域全面综述

从Google Gemini到OpenAI Q*:生成式AI研究领域全面综述

从Google Gemini到OpenAI Q*:生成式AI研究领域全面综述

这项综述性研究报告批判性地分析了生成式AI的发展现状和发展方向,并探究了谷歌Gemini和备受期待的OpenAI Q*等创新成果将如何改变多个领域的实际应用。

来自主题: AI资讯
5976 点击    2024-01-09 14:21
8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理

8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理

8x7B MoE与Flash Attention 2结合,不到10行代码实现快速推理

前段时间,Mistral AI 公布的 Mixtral 8x7B 模型爆火整个开源社区,其架构与 GPT-4 非常相似,很多人将其形容为 GPT-4 的「缩小版」。

来自主题: AI技术研报
5194 点击    2024-01-01 11:08
多模态大模型学杂了能力反下降?新研究:MoE+通用专家解决冲突

多模态大模型学杂了能力反下降?新研究:MoE+通用专家解决冲突

多模态大模型学杂了能力反下降?新研究:MoE+通用专家解决冲突

多模态大模型做“多任务指令微调”,大模型可能会“学得多错得多”,因为不同任务之间的冲突,导致泛化能力下降。

来自主题: AI资讯
3615 点击    2023-12-30 14:39
深度揭秘爆火MoE!GPT-4关键架构,成开源模型逆袭杀手锏

深度揭秘爆火MoE!GPT-4关键架构,成开源模型逆袭杀手锏

深度揭秘爆火MoE!GPT-4关键架构,成开源模型逆袭杀手锏

上周末,Mistral甩出的开源MoE大模型,震惊了整个开源社区。MoE究竟是什么?它又是如何提升了大语言模型的性能?

来自主题: AI资讯
6947 点击    2023-12-11 20:34
8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界,22人公司半年估值20亿

8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界,22人公司半年估值20亿

8x7B开源MoE击败Llama 2逼近GPT-4!欧版OpenAI震惊AI界,22人公司半年估值20亿

前几日,一条MoE的磁力链接引爆AI圈。刚刚出炉的基准测试中,8*7B的小模型直接碾压了Llama 2 70B!网友直呼这是初创公司版的超级英雄故事,要赶超GPT-4只是时间问题了。有趣的是,创始人姓氏的首字母恰好组成了「L.L.M.」。

来自主题: AI资讯
6225 点击    2023-12-11 20:20