
新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」
新范式,自回归大一统!北大提出VARGPT:单一框架实现视觉「理解」与「生成」VARGPT是一种新型多模态大模型,能够在单一框架内实现视觉理解和生成任务。通过预测下一个token完成视觉理解,预测下一个scale完成视觉生成,展现出强大的混合模态输入输出能力。
VARGPT是一种新型多模态大模型,能够在单一框架内实现视觉理解和生成任务。通过预测下一个token完成视觉理解,预测下一个scale完成视觉生成,展现出强大的混合模态输入输出能力。
自回归文生图,迎来新王者——
刚刚,人工智能顶会 NeurIPS 公布了今年的最佳论文(包括 Best Paper 和 Best Paper Runner-up,大会注册者可以看到)。
开发由人工智能驱动的物理机器人竞赛再次开始,尽管该行业有着失败的记录——以及 OpenAI 在对话式人工智能方面的主导地位可能成为更大竞争对手的威胁。
AI玩黑神话,第一个精英怪牯护院轻松拿捏啊。
一个高质量的人脸识别训练集要求身份 (ID) 有高的分离度(Inter-class separability)和类内的变化度(Intra-class variation)。
亚马逊招聘Covariant创始人并达成AI许可协议。 智东西9月2日消息,据GeekWire报道,亚马逊在上周五宣布,将聘请美国AI创企Covariant的三位联合创始人,并获得该公司AI模型的非独占许可。这是近期科技巨头“变相收购”初创公司的一种策略。此前微软挖走初创公司Inflection AI的联合创始人、亚马逊聘请美国AI Agent公司Adept的创始人等都是类似的操作。
又有AI初创公司创始人卖身大厂——
神经网络是一种灵活且强大的函数近似方法。而许多应用都需要学习一个相对于某种对称性不变或等变的函数。图像识别便是一个典型示例 —— 当图像发生平移时,情况不会发生变化。等变神经网络(equivariant neural network)可为学习这些不变或等变函数提供一个灵活的框架。
Covar iant能否估值百亿、甚至千亿美金? 8月2日消息,彭博社报道,专注具身智能赛道的美国AI软件企业Covariant最近收到亚马逊的收购意向。目前,亚马逊和Covariant均未对该消息作出回应