AI资讯新闻榜单内容搜索-Transforme

Transformer解码真实场景！Meta推出70M参数SceneScript模型

抛弃传统方法，只采用Transformer来解码真实场景！

来自主题: AI技术研报

10696 点击 2024-04-27 12:37

字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024

视觉语言模型屡屡出现新突破，但ViT仍是图像编码器的首选网络结构。

来自主题: AI技术研报

6622 点击 2024-04-27 12:15

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

从Llama 3到Phi-3，蹭着开源热乎劲儿，苹果也来搞事情了。

来自主题: AI技术研报

7810 点击 2024-04-25 20:01

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源

近年来，多模态大型语言模型（MLLM）在各个领域的应用取得了显著的成功。然而，作为许多下游任务的基础模型，当前的 MLLM 由众所周知的 Transformer 网络构成，这种网络具有较低效的二次计算复杂度。

来自主题: AI技术研报

8766 点击 2024-04-22 17:42

Meta无限长文本大模型来了：参数仅7B，已开源

Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力，虽然存在线性注意力和状态空间模型等次二次解决方案

来自主题: AI技术研报

7683 点击 2024-04-17 20:17

革命新架构掀翻Transformer！无限上下文处理，2万亿token碾压Llama 2

继Mamba之后，又一敢于挑战Transformer的架构诞生了！

来自主题: AI技术研报

6205 点击 2024-04-17 19:23

DeepMind升级Transformer，前向通过FLOPs最多可降一半

Transformer 的重要性无需多言，目前也有很多研究团队致力于改进这种变革性技术，其中一个重要的改进方向是提升 Transformer 的效率，比如让其具备自适应计算能力，从而可以节省下不必要的计算。

来自主题: AI资讯

4905 点击 2024-04-16 21:18

北大字节开辟图像生成新范式！超越Sora核心组件DiT，不再预测下一个token

提出图像生成新范式，从预测下一个token变成预测下一级分辨率，效果超越Sora核心组件Diffusion Transformer（DiT

来自主题: AI技术研报

8891 点击 2024-04-15 18:16

还在卷长文本？谷歌最新论文直接把文本干到…无限长了

通过这项技术，能使transformer大模型在有限的计算资源条件下，处理无限长度的输入。

来自主题: AI技术研报

6879 点击 2024-04-15 15:15

谷歌：假如AI大模型支持无限长上下文，会如何？

为解决大模型（LLMs）在处理超长输入序列时遇到的内存限制问题，本文作者提出了一种新型架构：Infini-Transformer，它可以在有限内存条件下，让基于Transformer的大语言模型（LLMs）高效处理无限长的输入序列。实验结果表明：Infini-Transformer在长上下文语言建模任务上超越了基线模型，内存最高可节约114倍。

来自主题: AI资讯

9893 点击 2024-04-14 11:32