ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
OpenAI Sora画的饼,AI行业集体给它圆了......吗?
8573点击    2024-08-14 11:49

AI文生视频领域,几乎只剩Sora还是个期货了。


最近两个月,国内外的AI-generated Video应用持续爆发,中国的快手、字节、智谱AI、生数科技、爱诗科技,海外的谷歌、Luma、Runway,格局如八仙过海。


虽然不同平台水平差异依旧存在,但整体可用性已经大大提高,而且风格化特征也比较全面。唯一的缺憾是,在融入工作流方面,AI视频工具们的水平还是差了一点。Sora画的饼,要交给这些后来者去圆了。


放弃期货,文生视频应用爆发


业界民间都把视频视为AI应用落地的重点领域。英伟达CEO黄仁勋在7月30日的全球顶级计算机图形学会议SIGGRAPH 2024上邀请了Meta的CEO扎克伯格进行对话,双方都认可视频能力会是AI大模型的进化方向。


出身于英伟达研究小组的Luma AI首席科学家宋佳铭,在与a16z合伙人Anjney Midha对谈时说,视频关联着3D世界,从学习角度看,视频数据使模型更好地理解和推理3D世界。所以,实时高质量的视频生成,最终会推动具身AI的发展。


视频就是这样一座“桥”,而现在大量的AI公司正在试图抢先通过它,尤其是OpenAI让Sora变成了外界用不到的期货,给了其他平台进一步发展的空间。



(整理自公开信息)




(图源:天眼查)


超长战线背后是这些公司的试探。一部分是关于商业模式,另一部分是关于技术应用前景。


可灵、即梦、Vidu等都推出了会员订阅模式,在C端进行应用普及化尝试。爱诗科技创始人王长虎此前在接受财新采访时表示:“爱诗目前的策略以2C(面向消费者)为主,广泛收集国内外用户反馈,以更好地基于用户体验迭代底层模型。”至于更远的应用,现在来谈则为时尚早,主要是因为C端的收费模式无法承担成本。


Luma AI采取了To C的产品形态,不过它原本专注于3D领域,进入视频生成领域是为了探索3D生成与重建的更多可能性,以视频驱动3D发展。这在产业领域有更多的应用前景,例如批量制造电影需要的三维素材等。


最重要的是,Luma AI的期望不是售卖技术或者素材,而是建立类似TikTok这样的平台,也就是一个基于3D的生态系统。王长虎也在和极客公园创始人张鹏对话时表示,爱诗科技也瞄准的是“AIGC时代的平台性机会”,但平台的形态暂时无法预测,因为AI产业不会以复制现在已有的平台的方式成长。


不仅如此,目前让AI-generated Video进入完整工作流的应用已经在成形。开源视频编辑工具Clapper最近热度上升,它的特色就是集合各类AI技术,用prompt的方式调动AI Agent生成和迭代故事,直接跳过了手工编辑文件的过程。



(图源:机器之心)


由此可见,AI-generated Video的进化速度远比我们想象得要快。目前,行业的重点无疑在于生成速度和生成效率两个方面。但是,大模型并不提供完全确定的商业模式方向,这更多取决于团队的选择。而在这个过程中,除了商业化之外,AI公司还要思考怎么避免陷入合规困境、成本困境。所以,把文生视频变得成熟并不容易,现在仅仅相当于ChatGPT刚刚问世的阶段。


AI-generated Video的“硬伤”和突破口


a16z之前就发表过观点,巨头在从科研成果到商业产品的转化中需要更关注法律安全、版权等问题,所以往往效率会慢。我们不去考虑Sora是不是因为这个原因始终不露面,单看行业都要面对的相关问题,逻辑其实是一样的。


1.商业化的“落差”,目前的AI-generated Video很难满足甲方们的需求


彭博社曾报道,OpenAI一直试图向好莱坞推荐Sora,但并不成功。用Sora制作的第一则商业化广告是6月公开的玩具反斗城广告。然而,这则视频不但用了一些旧素材,公开新闻稿也没有说完全由AI生成。


导演Nik Kleverov还在一条已经删除的动态里表示,制作这些镜头的创意机构Native Foreign提供了大约十几个工作人员参与工作,Sora支持了80%到85%的流程。这对需要高效低成本的AI-generated Video来说算不上什么好消息。


2.训练成本、高质量数据集难以满足


视频的本质可以视为一系列图像,图像有很多公开的数据集,但是视频没有。OpenAI遇到过违规使用YouTube视频进行训练的指控,英伟达最近被媒体曝光从Netflix和YouTube收集了大量数据,用来训练自己的Cosmos项目,用于支持其AI产品往现实世界发展。它每天可以下载相当于80年的视频内容。


这体现了两个关键点:一是黄仁勋和Luma的观点类似,AI视频的发展确实对AI进入3D世界意义重大,英伟达也是这样做的:文本——图像——视频——三维模型——现实世界。二是视频数据集是个大问题,除了版权问题,这些视频数据还缺乏标签,斯坦福大学教授Stefano Ermon说,现阶段缺乏筛选和过滤好视频的方法,而且筛选后还要考虑它们的标签和描述。


3.AI资产泡沫的问题,AI必须为用户解决重要复杂的问题才能有价值,但现在它的发展成效,远远不能和互联网等技术当年初生时的情况相比


Benchmark合伙人Michael Eisenberg在最近的一期访谈中,引用了其好友Atreides Management创始人Gavin Baker关于大模型发展的观点:“基础模型是历史上贬值最快的资产。”


他所举的例子来自Seeking Alpha的创始人,类似金融领域这种每分钟都会进行业务和数据更新的高频领域,训练出来的模型只能完成写报告之类的常规工作,但无法应对数据的高速刷新,满足金融预测未来的需求。


而且,其他技术的发展是确定性的,互联网发展早期虽然泡沫巨大,但已经体现了应用路径;而AI浑身都是不确定性。互联网发展的边际成本几乎约等于0(或者说其中不少都分担给了运营商和用户),然而AI成长的边际成本涉及大量固定资产,现在都由创业者自己承担,而且越投入边际改善效应越弱。大量的早期投入,很可能是一个陷阱。


技术革命之后必须伴随产业革命,产业革命则需要现象级产品的引领。AI更需要的是一个成功的场景。目前看来,AI-generated Video还没有拿到这类成果的起色。


Perplexity的创始人Arin对此提供了另外一个观点,那就是基础模型的价值本质映射着背后团队的价值,即Sora之于OpenAI,文心大模型之于百度。不是Sora能革了视频的命,只是外界相信由OpenAI领导的Sora具备这样的可能性而已。当Sora没能提供符合我们预期的突破时,谁能在这个领域担起大任呢?


由此出发,关键或许在于谁能先把AI-generated Video真正融入到某一个商业系统的工作流中去,就像Clapper对视频制作的探索一样。而这就是一个更大的问题了,因为它涉及到和其他领域的融合——气象、城市、影视、汽车、制造业。也许Sora会在今年的某天拿出一个更具体的成果,也许是其他的创业公司颠覆了我们对AI视频的认知。



本文来自“松果财经” 作者 松果财经



关键词: openai , sora , AI视频 , 文生视频
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

4
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0