
字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024
字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。
视觉语言模型屡屡出现新突破,但ViT仍是图像编码器的首选网络结构。
从Llama 3到Phi-3,蹭着开源热乎劲儿,苹果也来搞事情了。
近年来,多模态大型语言模型(MLLM)在各个领域的应用取得了显著的成功。然而,作为许多下游任务的基础模型,当前的 MLLM 由众所周知的 Transformer 网络构成,这种网络具有较低效的二次计算复杂度。
Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案
继Mamba之后,又一敢于挑战Transformer的架构诞生了!
Transformer 的重要性无需多言,目前也有很多研究团队致力于改进这种变革性技术,其中一个重要的改进方向是提升 Transformer 的效率,比如让其具备自适应计算能力,从而可以节省下不必要的计算。
通过这项技术,能使transformer大模型在有限的计算资源 条件下,处理无限长度的输入。
它通过将压缩记忆(compressive memory)整合到线性注意力机制中,用来处理无限长上下文
不走Transformer寻常路,魔改RNN的国产新架构RWKV,有了新进展: 提出了两种新的RWKV架构,即Eagle (RWKV-5) 和Finch(RWKV-6)。
谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。