
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型
摆脱Transformer依赖?这家AI初创公司推出国内首个非Attention机制大模型以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中小型企业望而却步。
以大规模著称的Transformer,在实际应用中的高算力和高成本,让不少中小型企业望而却步。
药物与靶标之间的结合亲和力的预测对于药物发现至关重要。然而,现有方法的准确性仍需提高。另一方面,大多数深度学习方法只关注非共价(非键合)结合分子系统的预测,而忽略了在药物开发领域越来越受到关注的共价结合的情况。
一项ICLR拒稿结果让AI研究者集体破防,纷纷刷起小丑符号。争议论文为Transformer架构挑战者Mamba,开创了大模型的一个新流派。发布两个月不到,后续研究MoE版本、多模态版本等都已跟上。
去年年底因颠覆Transformer一战成名的Mamba架构论文,竟然在ICLR 2024同行评审中被打出3分的低分,因而可能被拒收?这桩疑案今早一被曝出,立刻引发轩然大波,连LeCun都跳出来喊冤。
作为全球最顶级的机器学习工具库,Hugging Face上最近悄悄出现了一个新的transformers模型——Qwen2。没错,正是阿里通义千问Qwen模型的第二代。不过通义团队的算法同学在社交媒体上对此继续保持神秘。
Transformer八子叛逃谷歌后,又聚齐了OpenAI「十九子」!据爆料,从OpenAI出走的19位科学家,已经纷纷创办初创公司,融资总金额高达80亿美元。
状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术,其优势是能在长上下文任务上实现线性时间的推理、并行化训练和强大的性能。而基于选择性 SSM 和硬件感知型设计的 Mamba 更是表现出色,成为了基于注意力的 Transformer 架构的一大有力替代架构。
Transformer 在大模型领域的地位可谓是难以撼动。不过,这个AI 大模型的主流架构在模型规模的扩展和需要处理的序列变长后,局限性也愈发凸显了。Mamba的出现,正在强力改变着这一切。它优秀的性能立刻引爆了AI圈。
来自MABZUAI和Meta的研究人员发表的最新研究,在「非标准」指标上全面比较了常见的视觉模型。
在自然语言处理(Natural Language Processing,NLP)领域,Transformer 模型因其在序列建模中的卓越性能而受到广泛关注。