ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
2024年,每一个大模型都躲不过容嬷嬷和紫薇 | 焦点分析
3071点击    2024-10-19 16:17

分叉路,要选哪条?


连最积极搞AI的李彦宏,在这件事上也迟疑了。


“百度不碰Sora类的视频生成方向。”李彦宏在近期的2024年Q3总监会上说道。原因在于,10年、20年都可能难以商业化应用。


从OpenAI Sora横空出世,再到6月的快手可灵全量上线,视频生成成为2024年最火热的AI话题。


厂商们纷纷开始你追我赶。从4月至今,视频生产模型如同雨后春笋一般——除了快手、字节、阿里等大厂,头部大模型公司如智谱、MiniMax,以及生数科技、智象未来等垂类厂商,均发布了视频生成模型。


国内视频模型的涌现,也让“容嬷嬷和紫薇”的鬼畜形象再次翻红,她俩活在不同的视频模型demo和网友二创中,考验着不同模型的效果:


△图源:可灵,来自公开网络 


△图源:即梦AI,智能涌现制图 


行业对“超级应用”的渴望溢于言表,甚至影响到了如今大模型的路线——到底做不做视频大模型,影响国内“大模型六小虎”(智谱、月之暗面、MiniMax、百川智能、阶跃星辰、零一万物)走势的关键决策。


不过,对于做不做视频模型,国内大模型厂商仍未达成共识,而是分成了截然不同的几派:


有厂商迅速跟进。7月,智谱就推出了类Sora的视频生成模型“智谱清影”;8月,MiniMax发布视频模型Video-01。


而阶跃星辰发布新图像模型,也在今年7月的上海世界人工智能大会上,做了少量的视频生成尝试。


也有旗帜鲜明的反对者。“百川不会做Sora。”今年5月,百川智能CEO王小川就在《智能涌现》的专访中就表示。他认为,Sora并不在AGI(通用人工智能),即提升模型智力水平的主线上。


也有在探索后暂缓的厂商。最受关注的月之暗面,6月被媒体报道在海外试水两个新应用——角色扮演应用Ohai,以及AI音乐/视频生成应用Noisse。据《智能涌现》了解,这两个应用因为效果不达预期,后来并没有被单独立项,停留在试验阶段。


而在近期的“Kimi探索版”上线后,月之暗面还将发布多模态相关能力。不过,还不确定是否会有视频生成相关功能。


直到国庆前后,视频生成领域迎来两位重磅玩家:9月24日,字节跳动低调甩出了Seaweed和Pixeldance两款产品。


而紧接着的10月5日,Meta放出的系列模型Movie Gen,则又一次炸场。


△图注:2024上半年,全球已涌现了不少视频模型和产品,在中国尤其热闹。


在语言模型迭代放缓的当下,视频生成模型似乎成了那个更有希望的AI应用新方向——大厂也还没形成垄断。对初创公司而言,这更是一次重要选择——到底要不要做Sora?


分叉路,要选哪条?


首先需要厘清的一个概念是,大厂、创业公司如今普遍标配的“多模态能力”(图像、语音等模态),以及类Sora的视频生成模型,并不是同样的东西。


“多模态能力,相当于是让模型能够理解图像、音频、视频等形式,但还是基于大语言模型延伸的能力。”一位大模型从业者对《智能涌现》分析,“将视频、图片、语音输入到大模型里,是基于大语言模型做‘理解’;但生成视频,则是依靠视频模型的能力。”


“类Sora”产品所依靠的视频生成模型,借鉴了大语言模型(LLM)中Transformer架构等技术思路,但和大语言模型(LLM)是两种不同的事物。


这意味着,如果要做一个视频生成模型,相当于另起炉灶,从0到1重新搭模型。


可以肯定的是,要做视频生成模型,当前还注定是少数人的游戏。


再造一个“Sora”,成本高昂。


据Meta的数据,Movie Gen用了6144张H100进行训练,视频模型参数达到30B(300亿)。在国内,拥有此等训练资源的厂商,本就不多。


而眼下,国内大模型厂商基本都已经上齐了多模态能力,至于是否做视频生成方向,还处于摇摆状态。


对拥有短视频相关业务的大厂,如抖音、快手等,视频生成是不能输的方向。据硅星人报道,对可灵的大力投入,一个重要动力是为了服务于快手的内容生态——2023年,首次在快手发布短视频的创作者就有1.38亿。


另外,快手做可灵,也意在服务快手的电商生态,比如为MCN、电商商家提供商品相关的AI内容生成服务。


但对初创玩家来说,在AI应用方向不明朗的当下,大家都在忐忑地摸着石头过河。


有玩家早早坚定了自己选择的道路。一开始打定不做Sora的百川,在2024年全力落地医疗场景,并推出了自己的医疗AI助手。


专门做视频生成的垂类厂商,也拿到了阶段性的结果,比如生数科技旗下的Vidu,在8月上线后,两个月内,VIdu的月访问量就已经达到552万。


但能不能把新故事讲成自己的,还得看各家的真本事。视频生成领域的技术路线尚未收敛,市面上的顶级视频生成模型几乎都选择了闭源。


这意味着,玩家们需要投入真金白银去试错——选什么技术路线和应用场景,才决定AGI大潮退去后,谁能真正留在岸上。


文本太卷,Agent太远,视频生成刚刚好?


OpenAI的Sora尚且没有放开使用,为什么视频生成如今成了国内的香饽饽?


以GPT-4作为参考标杆,国内头部的大模型厂商和大厂,在今年上半年都已慢慢接近GPT-4的水平,在OpenAI后续发布GPT-4o后,厂商也都陆续跟进了多模态能力。


但GPT-5迟迟未出,意味着在语言模型上,国内大模型的厂商基本难以拉开代际差距。


另一方面,大模型跑了一年多,其落地和商业化成果还未让市场信服。


在国内,大部分的AI应用方向都陷入叫好不叫座的困境。细数这两年火过的AI应用方向——ChatBot/情感陪伴等类ChatGPT产品、文生图、AI音乐、AI搜索,都迅速陷入同质化竞争的局面。


以国内头部的AI应用举例,豆包、Kimi等在今年上半年经历了激烈的投流竞争,用户数最高已达千万级别,但商业化情况并不理想。


不少从业者认为,应用难以商业化,很大程度要归结到文本模型迭代放缓,能力提升变慢。这也让一些更遥远的,能完成更多复杂任务的方向——比如Agent(智能体),越发模糊。


《智能涌现》了解到的一个例证是,字节旗下的AI开发平台扣子的Agent业务,在今年就经历了一轮缩减。


而近期圈内热切讨论的放弃大模型的预训练阶段,意味着不少厂商要走下追求的牌桌,转向AI应用落地,继续活下去。


厂商们需要新故事,视频生成方向则刚好站在中间点:既有足够技术和开发壁垒,但壁垒不会高到玩家摸不着,前景也足够大。


“语言模型的商业化就不提了,初创公司至少还要想象力。如果头部初创公司不转其他应用方向,就什么都没有,怎么撑起这么高的估值?”一位从业者直言。


2023年,不少做视频生成的创业者都对《智能涌现》表示,如今的视频生成领域可类比处在GPT-2到GPT3阶段。这意味着比ChatGPT的效果稍稍略落后,比语言模型所处的发展阶段早很多。


但Sora发布后,视频生成领域已经看到了GPT-3.5阶段的曙光。“这个阶段意味着,让你看到这个赛道的巨大潜力,市场愿意投入。”一位从业者对《智能涌现》表示。


共识摇摆的背后,源于赛道仍处发展早期,还有不少探索机会。比如,刚刚发布的Meta Movie Gen。在Transformer架构基础上,使用了Flow Matching(流匹配技术),这就与Sora的路线有很大不同,也意味着整个赛道的技术路线尚未收敛。


在国内,这个方向上也有得天独厚的短视频生态,视频生成方向的模型探索,也因此站在全球前沿。


6月爆火的快手视频模型“可灵”,就是典型例子——在大厂中,快手并不是AI人才、资源的制高点,但经历短短数月攻坚,快手可灵仅凭20多人的小团队,硬是在一众大模型厂商中闯出一条路,可灵凭借怀旧照片等一系列策划,热度一度传到大洋彼岸的硅谷。


△Stability.ai创始人转发可灵产品,评论“中国在AI上有着巨大优势” 来源:X


并且,视频生成方向还处在早期,算力成本仍处高位,一旦开始商业化,付费已是必选项。


在海外,视频生成已经走出了不同路线——头部的视频厂商Runway和Pika都专注做B端的生产力工具,Runway甚至已经打入好莱坞,达成了不少影视界的合作。在国内,可灵、Minimax等厂商也早早开始了付费尝试。


归根结底,很少人愿意错过这个方向。毕竟,视频已经取代文字,成为互联网上流量占比最高的信息内容。据Sandvine《2023全球互联网现象报告》,2022年全球互联网视频服务,就占到总流量的65.93%。


随着视频生成技术不断成熟,这也许不会只是大厂的游戏。初创公司可以结合技术,以及巧妙的运营手段,快速闯出一条自己的道路。


△来源:Pika


硅谷视频生成明星初创Pika,就摸到了不少流量密码:一出道,就选择先在开发者聚集的Discord运营,并且迅速获得50万用户。


到了今年10月,Pika新发布的1.5模型中,还带来了更多社交运营玩法:内置了充气、融化、爆炸、捏揉、压扁等模板,引来全球网友“整活儿”,服务器甚至因为涌入的用户太多而崩溃——有网友就不禁回忆起当年:与早期的TikTok冷启动时期如出一辙。


文章来自于微信公众号“智能涌现”,作者“邓咏仪”


关键词: AI , AI视频 , AI伪造 , AI内容
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI音乐

【开源免费】suno-api是一个使用监听技术实现了调用suno功能,并封装好API的AI音乐项目。

项目地址:https://github.com/gcui-art/suno-api

2
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
AI搜索

【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。

项目地址:https://github.com/InternLM/MindSearch

在线使用:https://mindsearch.openxlab.org.cn/


【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。

项目地址:https://github.com/miurla/morphic/tree/main

在线使用:https://www.morphic.sh/

5
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/