AIGC如何增强用户体验及辅助内容创作。
随着人工智能技术的不断进步和创新,其在内容创作与用户体验领域中的应用越来越广泛。特别是在AIGC领域,技术正以前所未有的速度改变着媒体、娱乐和互动体验的格局。
第二十一届China Joy盛会提供了一个独特的平台,让行业领袖们齐聚一堂,共同探讨AI在重构内容创造和重塑用户体验方面的潜力与挑战。本次圆桌对话聚焦于AI的创造力,旨在揭示AI如何不仅能够增强产品互动性和体验感,而且还能辅助内容创作者释放创意潜能,提高效率。通过深入讨论AIGC技术的现状和未来发展趋势,与会嘉宾分享了他们对于如何利用这些新兴技术提升用户体验及内容创作效率的见解和经验。
以下为对话实录:
任一:我先来介绍一下奥创光年,我们本身是一家AIGC全链路营销公司。对于全链路这一词,我稍微展开说明一下,是指从AI的内容策略,到AI的内容制作,再到AI的投放,能够帮助品牌完成闭环。对我们来讲,AIGC里两个AI的核心能力是非常重要的。
一是AI的理解能力,因为我们在做所有策略端的时候,比如原先我在其他公司做甲方市场负责时,我需要判断生产的这些内容里到底哪些内容是好,哪些内容是坏,我的卖点要怎么讲,我要在什么场景讲,什么样的卖点才能打动目标消费人群。但在这个阶段会有非常痛苦的事情,我自己要下很多很多判断,可能一天要审二三十个短视频,做相关的内容判断。
而AI的理解力就是会对所有的短视频进行总结和归纳,这很好地解决了我当时遇到的问题。比如说,我看到很多爆款视频之后用AI来总结特征,AI会对这一批爆款视频里内容、卖点、产品场景等规律进行总结,你在做视频判断的时候就会非常准确。
用户可以通过AI的内容策略营销先做关于品牌卖点策略的规划,再做相关生产。当我们在策略端里给到了大家为什么去做这件事情的原因,再根据结果做AIGC的内容生成,包括混剪、3D视频,会更有的放矢地完成目标,这对于很多企业来讲会有很大的帮助。
任一:我们的很多客户是B端的企业或品牌,他们能了解到行业里哪些是比较好的内容。这些内容的互动性会很强,他知道行业在发生什么,内容爆款在哪里,这是核心的痛点。
因为你有了内容策略之后,所有AIGC的生产是围绕着目的去做的,比如说你卖一个零食,零食下面其实有各种场景,比如说在家里面吃的场景,在火车里吃的场景,AI能够对所有视频进行分析后给出总结建议。基于这些,品牌在做相关的KOL投放,或者用KOL投放的素材做视频剪辑时,对观众的互动性和对品牌目标客户的互动性会有明确的增强。而且这也会让品牌实现在所有细分场景中更为精准的营销,不同的人群有不同的场景,不同的沟通方式,能给客户互动性不断带来提升。
杜子航:魔珐科技主要是做基于3D虚拟人相关的内容生成,今年3月份我们推出了一款产品叫做“有言”,是做3D虚拟人解说类视频生成的视频工具产品。做这款产品是看到了行业机会,视频生成市场在企业端的应用。
现在看到像SORA是做偏创意类视频的生产,包括广告创意、影视创意。但对于企业端来说,企业需要向消费者、客户传递高密度、准确信息的时候,怎么样能够以更加可控的视频形式传递,这是我们看到的大命题,基于3D虚拟人AIGC全栈技术可以实现准确可控的视频生成。
从两个角度看这个问题。
第一个问题,企业的大部分内容目前形式有结构化、非结构化,但其实大部分还是以图文和视频为主,目前会有很多内容很适合通过视频的方式传递给用户。
比如说之前跟很多律所交流的时候,他们向他们的客户讲解过往案例case的时候,如果有视频的方式能做讲解,比你看一段几百字的长文会好很多。所以我们会发现这种场景,通过我们的技术帮他们实现场景的大批量覆盖。企业跟用户的交互端可以通过视频的方式实现复杂内容更加低门槛的表达。
第二个问题,从C端来看,今年有言会上线基于图片生成3D超写实人物的功能。对比目前的技术有个很大的突破。一是我们生成的是非常高精度的超写实人物面部,能做到将近70%左右的还原度。二是生成的3D人物可以被动画生成大模型所驱动,基于这样的技术底座就可以延伸很多应用。比如说个人可以用有言这个功能做自己的简历、表情包、动画,比如今年有个特别火的应用,把你的形象可以替换到某一段视频里,而我们可以做成3D动画视频。以及后续可以做很多3D动画模板,可以把里面的人物替换成你自己复刻之后的角色。
这个功能给C端使用,Z世代可以做个人在互联网上分身应用等,带来更多想象力和应用形态,这是我们能看到的在C端的内容消费点。整体来说,不管是从B端复杂信息的视频化,还是从C端基于自己个人IP 3D内容的生成,我们认为AI技术本身会带来视频生产的边界拓宽,原来不知道能不能做的,现在可以做。二是生产频率有很大的提升;三是在交互界面上会有很大的不一样,以后我们能看到的人与AI交流的时候,一定是多模态的,除了文本信息的反馈之外,还会有图片和视频的反馈。
庄明浩:我们公司叫趣丸科技,核心产品叫TT语音,是一个基于游戏场景的兴趣社交平台,我们也在做AI音乐、智能视听等人工智能的业务。
我们现阶段做AI应用基本上有两条路径,即原有业务+AI跟所谓的AI Native。
基于现有业务做AI的场景,在社交板块、游戏板块、音乐板块做了一些事情。社交板块尝试在人与人社交之外,人与AI的社交场景是否有可能性,到底提升了留存、转化,还是提供了新场景的拓展。原来我们做的场景主要是游戏开黑场景,需要人与人之间非常密切的互动,今天AI出现之后,这件事情是不是可以效率更高?
在游戏板块,基于头部最核心的几款竞技游戏,《王者荣耀》、《和平精英》、《第五人格》当游戏跟社交场景变模糊之后,我们也尝试是否能通过AI的能力做游戏场景的设计,包括数智人NPC、游戏3D素材等。
在音乐板块,今年上半年音乐的AI生成也是比较大的话题,我们有一个独立的Team在做AI音乐生成的产品,我们也研发出全球首个多模态配乐大模型,具备图片/视频生成音乐的能力,上传一段视频就可以配上歌曲。
任一:我不知道大家有没有听到一个词,叫做“全托管和半托管”,我们看到很多海外平台在做全托管、半托管的模式,核心点是原来从单店运营,到几个店运营,到现在一个人要运营几万个店。通过这种方式,AI可以实现批量定制,比如说商品头图,下面有一些内容的详情页,原来只能做到一天产出几张,但现在可以通过模板化、AI的批量化生产,帮助他在当天内可以生产上万张图,来做相关的CTR的提升测试,这是在量上的突破。
在质上的突破,之前我们在做很多电商客户时,他们想做产品里比较高质量的视频是非常困难的,包括3D建模及其他的,但现在可以通过AI,把3D建模这件事情变得非常简单、高端的视频,来帮他完成相关的投放。
在批量化制作里,可以协助作者在很短的时间里拿到更多的图片。在生产高质量视频或者图片类的时候,可以通过Mogic Copilot拿到很好的高质量视频。
在这两方面都有提升。
杜子航:我还是从企业视角来看,因为我们自己是做这件事情的。我们做产品的时候主要考量企业的实际应用场景。比如现在大部分企业都有自己公众号,一般会配备做公众号运营的团队,或者外面有些写手。但我们发现企业视频号运营做的还是比较差的,从更新频率、内容质量、栏目体系。如果我们做一款视频工具是给企业用的,我们先从垂类场景,视频号的内容生产来看,可以做几件事情:
一是能帮助企业生成相对高质量的视频,符合企业的调性。
二是以高频率相对高性价比的方式生成视频,比如公众号一般至少一周更新一篇,假设一周更新两篇,一年按52个周算,100个视频能以多少成本做出来。
三是应用门槛,因为做视频的人还是比较贵的,视频工具出来之前我在业内也问了一下,现在做2-3分钟纯AI生产的视频可能也要几十万。我们在想,能不能把门槛降低,原来做文案工作的人员现在还能做视频了,企业不用新增一个岗位专门用来做视频,还是原来做文案的人,只不过他能做两份工作了。
围绕这几个目标,核心是门槛,原来做公众号有模板、原创内容,还有基于模板原创内容的微调,出来一篇看起来排版、内容、质量都不错的文章。我们也是这个逻辑,我们有我们的视频模板,你也有你的原创内容,比如说你的脚本、素材、PPT、图片、视频,这都是我们做视频时素在的一部分,只要把脚本和素材paperwork工作准备好了之后,选一个不错的模板,就能生成比较好的视频,这就是我们定义的低门槛。
本质上,希望以非常低的门槛,做非常有确定性的事情,迭代三个点:质量、效率、成本。我们的视角是能把门槛降低。这一个视角。
第二个视角,我们也在积极引入很多AI工具,很多时候客户会跟我们聊天说你的平台挺好的,但素材我要自己准备,原来做视频是要找人拍,再选片段、做剪辑,做配乐,包装。
客观来说,我们会结合很多现成的工具进来帮我们做素材的生产、脚本的生产,这样整个事情能变成端到端。
第三个视角,今年所有人都在讲Agent,我们的视频能不能不要操作了,如果内容、模板相对固定,以及具备一定的模板化能力,是不是可以做端到端AI生产,人可能什么都不用做,机器去爬数据、生产脚本,就能把视频跑完,这是我们做的第三个事情,视频的Agent。
包括在券商行业、新闻资讯行业,可以从热点新闻的爬取,到素材的生才,到视频的生成,端到端的生产,如果你想抓最新最快的热点,希望把它做成视频在抖音号发布,针对这样我们可以有很好的表达。所以针对量、频率、生产效率有很大的提升。
庄明浩:因为我们是To C的产品,有自己的平台,在我们平台上有几类所谓的创作者,他们在做的内容形态可能包括在线的剧本杀、在线的音乐作品。
本质上,剧本杀今天看上去已经跟游戏的区别越来越小了,从游戏设计的角度讲,从游戏最开始的素材、玩法、地图,到最后的功能实现,整个全流程说大一点类似游戏引擎的功能,在我们的产品里基本是完善的状态了。另外在音乐创作板块,因为AI音乐技术能力的提升,我们可以做到三键成曲,可以选择不同的人声、旋律、风格,生成一段不错的作品,甚至尝试配上图片、视频,变成MV。
对于内容创作而言,不仅仅是我们,今天所有主流的,哪怕是垂类做的不错的创作平台,在AIGC创作工具这件事情上都投入了非常多研发能力和功能模块的设计。今天我们能看到很多在大的内容平台上出现的AI创作作品已经非常接近专业水平,我们也在往这方面努力。
作为公司,我们也在创作自己的内容,过程中也用到了很多AI的能力,最典型的是几乎今天所有主流的游戏投放素材已被AI代替得非常多了,这已经是呼啸而过的趋势,大家已经不去探讨这个问题成不成立,所有人都在做这件事情。
任一:我认为用AI做这件事情的时候,核心能力在于宽度。这就是为什么Google重投入AI,因为它与搜索引擎的本质非常接近。比如说,当你有一个特别好的想法,AI能帮你做到的场景联想。举例来说,如果你正在制作一部优秀的动画或广告片,你可以向AI询问关于广告片所有的内容。比如说主题是“太阳照常升起”,你输入进去之后,AI可以给你很多场景联想和灵感启发。这就是AI的强项。 然而,在内容创意和深度上,现在的流量平台,如抖音以及其他视频平台上的创意,其实都是由人完成的。人们可能会用AI工具做相关的横向灵感启发,但在内容深度和人性理解方面,以及在传播力方面,都需要人的深入参与。这必须得通过对特定群体的共性的洞察来实现。这种理解人类本质的能力,是AI目前还无法比拟的。
我始终认为AI是一种辅助性的创作工具,它能给你很多灵感。但如果你想要实现创作的升华和深度,那还需要依赖人类的创造力,因为只有人才能真正打动人。毕竟,你的目标客户也都是人,所以在共情方面,我们仍需要人类进行深度的输入。 在人的思想深度较高的情况下,AI可以帮助你将思想可视化。像SORA、可灵(音)以及其他大型模型,都有这样的能力。当你有想法想要表现出来的时候,你可以通过简单的AI生成工具,让你的想法可视化,以便和更多的人进行沟通,或者测试你的想法是否过于偏激。 在创意端,AI既可以启发灵感,又可以将深度的内容创意可视化,这是AI在创作过程中能发挥的积极作用。"
杜子航:我觉得整体来说还是技术在前期的时候总是容易被高估的,这是大的前提,现在讲AI跟人的关系,客观用实际场景去看,现在这么多公司的设计部门、UI部门、原画部门都开始用AI代替人工、增效,有哪个可以真正端到端AI去做的?这是大的前提,如果你不能端到端AI去做,那人的步骤还是不可少的,这是第一点,AI还没有那么牛逼。
第二点,客观来说,AI本身当前现在的能力离完全达到我们第一个目标还差很远,比如说视频生成例子,我们自己调研一个很实际的场景,企业做视频课件,需要准备12345,很多大企业有非常标准的SOP告诉你怎么去做,你要有命题,你要准备脚本,你要准备PPT素材,你要准备逐字稿,最后找个地方给你录,录完了之后剪辑。
现在AI能做哪些?我们客观看,目前解决的是最后一部分,你不用录了,视频生产我们帮你做,但前面的命题、脚本、素材都需要你自己去准备的,我们能帮你解决20%,剩下的80%的工作还是需要真人做的。
但是再往前是不是能看到脚本可以用AI来生成了,可能把我的核心知识输入进去,逐字稿的生成,快捷的PPT的生成都是有人在做的。
以当前阶段来看,能做的可能有限,但往前看每个环节都会逐步有些公司、有些AI能力的边界突破做更多提效,但本质上内容的核心还是来自于人,你想怎么定义内容的目标,怎么样演绎内容。大架构是人架构的,AI在目前可以帮你做模块化的内容提效以及内容创意、标准化的生成。
第三点,AI风格还是有点雷同的,现在我自己已经有点能看出来哪些图是AI做的,哪些图不是AI做的,包括我们看真正电商场景的商品生产,通过AI去做的风格还是很明显的。
当AI的多样性有了问题,以及它的风格能够被C端相对直接地识别之后,这件事本身是失败的。我们目标还是希望AI跟人没有什么差异,这才是目标。一旦有了过滤机制之后,这类内容就会打个标签,像抖音打“垃圾广告”标签以后,人可能会觉得这个内容不是好的内容。至少多样性短期内在企业端应用还是比较大的问题。
回到人的价值来看,多样性是问题,多样性一部分来自于数据,数据本身还是要靠人生产的,人生产完之后再喂给机器,机器有了更多的学习以后才有更丰富以及能做跟人更相近的事情,有不同的阶段。
目前这个事儿还太远了,目前大家的期望还太高了,但逐渐恢落到实际的事情上去,这是我的想法。
庄明浩:我自己也是一个创作者,平时会写比较多的PPT,很多人看我PPT做得挺好会问我,今天这个时间点市面上有无数多的PPT产品,你到底用的哪个?我说没有任何一个可以满足我的需求。
我的需求是什么?比如说我要讲《黑神话:悟空》研发公司十几年的历史,每个节点的数据,每个产品的节奏,为什么这个时间点出了这个产品,为什么这个时间点拿了钱。所有内容本质上只有你脑子里有,没有办法通过AI来实现。这类比就是劳斯莱斯为什么坚持用手敲而不用工厂流水线是一样的。
现在制图也好、音乐也好、视频也好、3D素材也好、文档也好,确实已经有非常多好用的工具出现了,而且越来越符合人们想象中的自动AI,完全全部帮你搞定的状态,但还有太多涉及自我表达、情感认识、创意性的内容没有办法完全地依靠它。
任一:因为我们是一家面向企业(To B)的公司,与内容创作者直接接触会更有利。我会从行业的角度就相关方向和未来进行沟通。 作为一家创业公司,我们会洞察到很多AI的发展趋势。例如,SORA推出后,大家普遍认为生成式视频将是未来的核心。围绕这个核心,我们为广告和营销行业设计相关产品,这是我们规划未来方向的起点。 但从当前行业的角度看,更重要的并非如何完成终极产品,而是在达到终极目标之前如何生存。这是非常关键的环节。现在的人工智能生成内容(AIGC)可能只能满足部分需求,关键问题是在现有的技术水平下如何找到产品市场契合点(PMF),也就是找到核心的市场应用,从而赚钱。 在AIGC的未来发展中,不仅需要技术,更需要商业环节的考量。
目前,中国乃至全球,并未看到AIGC有突破性的发展,这可能影响了流量行业的转型。例如,短视频目前还主要集中在抖音,涉及各种话题营销、娱乐话题时还主要使用微博。当所有媒介方式和媒介平台的流量格局尚未改变时,实际上AIGC是无法颠覆行业的流量格局的。 在这种情况下,我们并未看到出现特别突出的产品,那么在这种格局下,AIGC应如何生存,应如何利用现有技术满足特定的商业场景,进行相关的内容生成和内容发展,这是非常关键的环节。目前,这将是未来两、三年的主要发展阶段。
杜子航:我们跟很多同行、客户交流的时候最近慢慢都聊到了这个问题,我跟很多政企客户、国企券商金融的聊。基本上问到这个问题第一个表情就是摇头。
我觉得现在客观来说,ROI在短期内不重要,但在长期很重要,长期是相对的。对于应用公司来说,它的长期可以很长,因为它本身是我现有流程的附属品。但其实对专注做这个的或者all in的这家公司来说是很重要的,场景可能没那么长,就几年的时间,钱没了就没了,如果技术没有很好的进展,商业模式没有很好的变现,那团队就起不来。
最终为什么样的客户群体、什么样的人群提供了什么样的价值,是你最终商业模式的基础。我们自己做3D做了很多年,2018年开做3D超写实虚拟人,做了很多尝试,最开始做动捕,做完动捕之后开始做端到端的动画、全栈式的动画,买IP,做番剧,做很多尝试,最终还是回到了一条很苦逼的赛道,做To B AI虚拟人的落地。
从很远的阶段来看,当前不管是影视、游戏、动画行业,3D内容从业者过的都是很苦的,游戏可能好一点,变现通路比较直接。
一方面是变现通路的问题,另一方面是生产端,如果影视跟动画行业活得不好,那IP可能从孵化到发行阶段还行,但后端生产端的人就更苦了。
有没有一些方式能解决这个问题,最开始我们通过技术提升效率的方式做,我们自研了AIGC全栈技术,比如实现了基于文本端到端生成人物的对话。我们现在还是围绕很垂直的场景,我们通过B端的应用切入进去做人物讲述类动画的生成。
往前看,比如说我想做一部没有武打戏的番剧,对话式的,比如说把《爱情公寓》做成一部番剧,有可能吗?有可能。一是场景空间3D建模都是我们自己做的,二是灯光可以自己做,镜头可以自己做,人物表达可以自己做,声音也可以自己做。只不过我们现在做的是比较垂直的一个人加相对独立场景的形式,是不是可以变成两个人、三个人?
从表达层面来看,上周我跟火山人在交流,他们用最新的大模型技术迭代了语音生成能力,用了小说场景。有声小说,把原来的文本通过TTS的方式读出来,通过最新模型跑的时候,多角色情感化表达已经做的很好了。
表达层面,语音情绪,不同情绪的音乐表达、情景表达都能做的不错了,那你的声音是OK的。
第三是系统的把握,因为运镜是很重要的,当然前期可以不好,慢慢好起来。
从内容生成来看,我们自己比较看好通过文本或者比较简单的输入做更加复杂的3D动画生产的事情,To B先做,框架已经在了,后续只需进一步提升和优化效果。最终是不是一本剧本丢进去之后,通过格式就能生产出还不错的番剧出来,生产比较短的短剧处理,这也是我们能看到的方向之一。
再往远看,看原生3D眼镜,因为我们本身所有内容都是原生3D内容经过渲染输出成为2D视频,其本质上是3D内容,如果介质能从二维升级到三维,会带来很大的遐想空间。
总结来看,从我们的视角来看,短期内还是要看商业模式,长期来看还是做3D内容生成,能降低门槛,提升输出效率,以及还是比较期待3D原生介质的出现,能最终拓宽用户的实际体验效果。
庄明浩:ChatGPT发布是2022年11月底发布的,但真正意义上以图片为代表的所谓这一波AIGC浪潮的兴起要比ChatGPT再早大概一年的时间。
回头来看,所谓AIGC概念其实比生成式AI再早一年已经出现在大家面前,到今天已经快三年的时间。
从AIGC的角度来看,能想到的大部分内容形态的AI技术的0到1,已经有很多公司在做了。再看细分的每一个类目里,当AIGC的生成式内容解决了0到1之后,大家开始尝试让它变更垂类,商业化路径变得更清楚,产品边界变得更清楚。这之中,有更多的细分公司出现,无数的投资进去之后把这个事情拱起来,但还要等待AIGC行业成为成熟态、完整的匹配到流程里,能产生规模收益,甚至有大利润上市公司出现的过程。
大饼的故事已经画了这么多年了,已经过了大家对这件事情疯狂、无限期待的阶段,大家变得理性,变得收敛,变得知道该做一些具体的事情,到产生收入、产生利润,产生上市公司,可能会是我们接下来会看到的事情。
文章来自于微信公众号晓曦 作者晓曦
【开源免费】suno-api是一个使用监听技术实现了调用suno功能,并封装好API的AI音乐项目。
项目地址:https://github.com/gcui-art/suno-api
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】LGM是一个AI建模的项目,它可以将你上传的平面图片,变成一个3D的模型。
项目地址:https://github.com/3DTopia/LGM?tab=readme-ov-file
在线使用:https://replicate.com/camenduru/lgm
【开源免费】MindSearch是一个模仿人类思考方式的AI搜索引擎框架,其性能可与 Perplexity和ChatGPT-Web相媲美。
项目地址:https://github.com/InternLM/MindSearch
在线使用:https://mindsearch.openxlab.org.cn/
【开源免费】Morphic是一个由AI驱动的搜索引擎。该项目开源免费,搜索结果包含文本,图片,视频等各种AI搜索所需要的必备功能。相对于其他开源AI搜索项目,测试搜索结果最好。
项目地址:https://github.com/miurla/morphic/tree/main
在线使用:https://www.morphic.sh/
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales