AI TNT— 让一部分先用AI实现商业化

Mamba-2新架构出世一统江湖！普林斯顿CMU华人再出神作，性能狂飙8倍

在开源社区引起「海啸」的Mamba架构，再次卷土重来！这次，Mamba-2顺利拿下ICML。通过统一SSM和注意力机制，Transformer和SSM直接成了「一家亲」，Mamba-2这是要一统江湖了？

来自主题: AI技术研报

6849 点击 2024-06-04 15:20

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

改进Transformer核心机制注意力，让小模型能打两倍大的模型！

来自主题: AI技术研报

8043 点击 2024-06-03 15:44

LLM的「母语」是什么？

在以英语为主的语料库上训练的多语言LLM，是否使用英语作为内部语言？对此，来自EPFL的研究人员针对Llama 2家族进行了一系列实验。

来自主题: AI技术研报

8078 点击 2024-06-03 10:53

单GPU训练一天，Transformer在100位数字加法上就达能到99%准确率

乘法和排序也有效。

来自主题: AI技术研报

8054 点击 2024-06-01 19:00

Yann LeCun：ViT慢且效率低，实时图像处理还得看卷积

用卷积能做出一样好的效果。

来自主题: AI资讯

8059 点击 2024-06-01 18:57

解决Transformer根本缺陷，CoPE论文爆火：所有大模型都能获得巨大改进

即使最强大的 LLM 也难以通过 token 索引来关注句子等概念，现在有办法了。

来自主题: AI资讯

8064 点击 2024-05-31 19:10

适应多形态多任务，最强开源机器人学习系统「八爪鱼」诞生

一位优秀的相声演员需要吹拉弹唱样样在行，类似地，一个优秀的机器人模型也应能适应多样化的机器人形态和不同的任务，但目前大多数机器人模型都只能控制一种形态的机器人执行一类任务。现在 Octo（八爪鱼）来了！这个基于 Transformer 的模型堪称当前最强大的开源机器人学习系统，无需额外训练就能完成多样化的机器人操控任务并能在一定程度适应新机器人形态和新任务，就像肢体灵活的八爪鱼。

来自主题: AI技术研报

8324 点击 2024-05-28 20:01

Transformer大杀器进入蛋白质组学，一文梳理LLM如何助力生命科学领域大变革

科学家们把Transformer模型应用到蛋白质序列数据中，试图在蛋白质组学领域复制LLM的成功。本篇文章能够带你了解蛋白质语言模型（pLM）的起源、发展，以及那些尚待解决的问题。

来自主题: AI技术研报

8940 点击 2024-05-26 14:16

Bengio等人新作：注意力可被视为RNN，新模型媲美Transformer，但超级省内存

既能像 Transformer 一样并行训练，推理时内存需求又不随 token 数线性递增，长上下文又有新思路了？

来自主题: AI技术研报

6445 点击 2024-05-25 18:07

多功能RNA分析，百度团队基于Transformer的RNA语言模型登Nature子刊

预训练语言模型在分析核苷酸序列方面显示出了良好的前景，但使用单个预训练权重集在不同任务中表现出色的多功能模型仍然存在挑战。

来自主题: AI技术研报

8934 点击 2024-05-19 16:29