
二次元狂喜!海螺发布2D动画专用视频生成模型,日漫迪士尼插画风都支持
二次元狂喜!海螺发布2D动画专用视频生成模型,日漫迪士尼插画风都支持MinMax海螺AI新模型,让2D角色动起来了!
MinMax海螺AI新模型,让2D角色动起来了!
视频生成模型评测权威榜单VBench,突遭“屠榜”。
近年来,扩散模型(Diffusion Models)已成为生成模型领域的研究前沿,它们在图像生成、视频生成、分子设计、音频生成等众多领域展现出强大的能力。
随着计算机视觉领域的不断发展,自回归模型作为一种强大的生成模型,在图像生成、视频生成、3D 生成和多模态生成等任务中展现出了巨大的潜力。然而,由于该领域的快速发展,及时、全面地了解自回归模型的研究现状和进展变得至关重要。本文旨在对视觉领域中的自回归模型进行全面综述,为研究人员提供一个清晰的参考框架。
这个周末,押注开源人工智能视频的初创公司 Lightricks,有了重大动作。 该公司推出了最快的视频生成模型 LTX-Video,它是首个可以实时生成高质量视频的 DiT 视频生成模型。
在2024年的AI领域,我们正在见证一个有趣的转折。 OpenAI的进展节奏明显放缓,GPT-5迟迟未能问世,“Scaling Law”成了天方夜谭,即便是年初震撼业界的视频生成模型Sora,也未能如期实现“全面开放”的承诺。
随着人工智能的发展,AI问答模型在各种应用场景中表现出色,尤其是在信息检索和知识问答领域。传统的RAG模型通过结合外部知识库的实时检索与生成模型,极大地提升了回答的准确性。然而,这类模型仍然面临一个重要挑战:无法有效处理长期信息,尤其是在需要持续记忆和动态更新知识的场景中表现不佳。
卡内基梅隆大学提出了视频生成模型加速方法Run-Length Tokenization(RLT),被NeurIPS 2024选为Spotlight论文。 在精度几乎没有损失的前提下,RLT可以让模型训练和推理速度双双提升。
文本到图像的生成模型让创作更加灵活,用户可以用自然语言引导生成图像。
【新智元导读】刚刚,一款专为消费级显卡设计的全新非自回归掩码图像建模的文本到图像生成模型——Meissonic发布,标志着图像生成即将进入「端侧时代」。