
ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3
ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3动态视觉分词统一图文表示,快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。
来自主题: AI技术研报
5264 点击 2024-01-30 13:36
动态视觉分词统一图文表示,快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。
DALLE-3 是一个文本到图像生成器,可以根据称为提示的书面描述创建新颖的图像。尽管 OpenAI 没有发布有关 DALL-E 3 的技术细节,但 DALL-E 早期版本的核心 AI 模型接受了人类艺术家和摄影师创作的数百万张图像的训练