ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
Sora复刻版来了,微软参与,华人团队打造
7083点击    2024-03-22 16:15

Sora复刻版出现了——


Mora,还是多智能体那种。



Sora有的能力它基本都有,比如文本转视频、扩展视频、视频编辑、视频拼接、模拟数字世界等等。



还支持生成1024*576分辨率的12秒视频。



这项研究来自理海大学微软研究院的华人团队。他们运用多个视觉agent,在多个任务中表现接近Sora。


既如此,且来看Mora究竟实力如何。


Mora复刻Sora


先来看效果。


首先是文本到视频的生成。


In the middle of a vast desert, a golden desert city appears on the horizon, its architecture a blend of ancient Egyptian and futuristic elements.The city is surrounded by a radiant energy barrier, while in the air, seve
(在广袤的沙漠中,一座金色的沙漠城市出现在地平线上,其建筑融合了古埃及和未来元素。)


效果还不错,有点三体内味了。


再来看,基于文本提示的图像到视频生成。


不妨就拿Sora视频比较一下。



除此之外,还支持视频编辑,比如修改一下视频里的车、给车铺上一条彩虹之路。


这个效果嘛,就还有进步空间~



不过跟Sora同款的视频拼接,是可以Hold住的。



多智能体框架


研究团队提出了一个多智能体框架Mora。


他们认为解决不同视频生成任务,需要不同专业能力agent协作。为此,Mora框架中有5个基本角色组成:


Prompt选择和生成agent、文本到图像生成agent、图像到图像生成agent、图像到视频生成agent、视频到视频agent。


每个agent负责特定的输入和输出,通过设置agent的角色和操作技能,团队定义了各种任务基本工作流程。


根据任务不同,采用特定的agent组合。


目前他们主要设计了六个工作流:


文本到视频生成;文本条件图像到视频生成;扩展生成的视频;视频到视频编辑;连接视频以及模拟数字世界。

最终,在各个任务中,Mora的表现都接近Sora。





团队认为,Mora作为开源多agent框架,具有一定的灵活性和效率,还能无缝集成各种模型。


但与此同时,也有一定的进步空间。比如高质量视频数据集的需求、指令遵循能力的提升、人类视觉偏好对齐等。


理海微软团队


此次研究来自理海大学孙力超团队,此外还有微软研究院研究员参与。


前段时间,同样也是这个团队用37页论文逆向工程解剖Sora。


他们对模型背景、相关技术、应用、现存挑战以及文本到视频AI模型未来发展方向进行了全面分析。



本文来源于公众号凹非寺,作者白交



关键词: Sora , Mora , AI视频 , 文生视频
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0