“
当AI生成视频的质量越来越高,人类创造力是否将被替代?
当AI像人一样思考,硅基智能是否将超越人类智慧?
当英伟达成为AI算力的巨头,中国版英伟达在哪里?
九合创投创始人王啸近期对话第一财经电视,分享了大模型应用层的投资机会、软件与硬件结合的发展路径,以及九合成立12年以来的自我更新与迭代。
”
第一财经:感谢您接受第一财经专访,时间过得挺快,九合创投成立12年了,你们这些年投资的赛道一直比较聚焦,我看到你们投的一家AI公司制作的视频,据说从文案、制作、合成、配音都由AI完成,在这个过程中是否真的不需要人工参与,如果仍然需要的话,它给您的启发是什么?是否在未来相当长的时间之内,AI在视频这一领域中很难做到无所不能?
王啸:这个片子还是有相对比较多人工参与的过程。从总体片子的立意到策划,有一些文案是可以用大模型生成的,但是如何选择、如何调优还是靠人工。
在这个过程当中,视频片段和片段之间的剪辑、分镜也有人参与比较多的工作,但在分镜之后一些素材的生成,大模型做了很多工作,所以还是节省了大量的时间,最终制作出来的效果达到了我们对这部片子的要求。
除此之外,我们投的一家公司之前已经在AI视频广告制作方面有一些比较好的成效,简短的产品、服务介绍的视频,用AI来制作是没问题的。
对于一些大型影视作品的制作领域,还是需要大量人的精力投入其中。在一些具体的制作方面,在大模型之上再加一些流程、主体、分镜控制等应用层的能力之后,能生成蛮不错的片子。
现在这些片子可能动画类型的多一些,因为目前动画更容易生成,我们投的一家公司做的AIGC短片也在全球AI电影马拉松大赛获得了比较好的比赛奖项。
第一财经:如果AI在文案生成等方面都调用了大数据共享资源,我们会担心,这样生产出来的视频或内容会不会出现千篇一律、千人一面的情况?
王啸:我认为其实大模型生成的内容会更多样化一些。因为我们给它的提示词不同,每个要求也不同,它生成的画面差别会比较大,所以反而是大模型生成的短片、视频是更差异化、更有想象力的。
以前我们看到的短视频里很多是有模板的,经过套用模板,再由人来制作,我们会发现它的内容雷同性很高,我觉得当下AIGC生成的内容,它的想象力、差异化、甚至质量方面,是很有可能大幅提高的。
第一财经:对于文字工作者或者创意工作者,您认为最现实的可以用AIGC的服务给他们带来的具体帮助是什么?
王啸:我觉得AIGC无疑能够提高这些工作的生产效率。这当中的一些框架思考、核心观点的输入可能需要人来做,在这之后的环节、内容的具体生成,大模型可以生成得比人制作的效果更好,我认为人工智能在这一领域的应用非常有价值。
全球市值冠军,
中国版英伟达在哪里?
第一财经:英伟达的市值超过了苹果和微软,如果从投资的角度来讲,我们在国内能否找到类似于中国版的英伟达,如果有的话,这样的公司应该具有哪些特质?
王啸:中国也有一些做GPU计算的公司,而且已经有一些商业化的产品,包括像华为昇腾计算、百度的昆仑芯,还有一些国内的GPU创业厂商,当然这些公司如果想达到英伟达的体量和垄断地位,还有漫长的路要走。
我们也投了光计算的创业公司,在这一领域我认为可能存在新一波大算力之上,用光计算来替代电子计算的可能性。当然这一领域还是以10年作为周期的考量,英伟达已经成为 GPU和人工智能算力方面的巨头,中国公司要想在同样的道路上迅速赶超还是有困难的。
但在推理、训练等方面,有一些产品替代和硬件替代的机会,在未来是可能发生的。
软硬结合或将是方向
第一财经:英伟达除了GPU和芯片之外,也提供一些系统性服务,是否软件公司最终走向硬件,收益才能成几何倍数增长?
王啸:英伟达是从 GPU硬件、芯片开始,做到模组、服务器、服务器集群、算力服务,之后又做了开源大模型系统,它一步一步从底层硬件往上走,走到了软件甚至模型层面,这是一条发展路径,而且走这条路可以发展得很大。
但我认为软件和硬件本身不分家,做软件的公司可能会去做一些硬件,做硬件公司也可能做一些软件,实际上不能将软件硬件完全分开。
回到大模型领域,未来的公司的载体可能会是什么?有可能的一条路径是,硬件作为载体,它的服务本质上是个软件。比如我们和大模型聊天,它里边其实是大模型在跑,大模型是个软件,但是大模型推理这些服务很有可能在端侧要有个硬件来支持。比如说它可能有一个机器人的载体本体,所以软硬件不用分那么开。能不能提供更加完善的一体化服务,比如软件占多少比例,硬件占多少比例,这可能是我们更看重的部分。
第一财经:是否对于一家软件公司来说,最终要生产一款硬件产品,才能够把软件服务更好的集合起来?
王啸:新一代的硬件是什么,目前并没有被完全定义出来,所以这时候需要软硬件一体的服务,更容易达到用户的需求。但我认为这是一个阶段性的过程,未来如果硬件平台慢慢的形成标准化和统一化,硬件之上的软件服务可能更容易规模化增长,也更有想象空间。
比如微软本质上是一个软件公司,操作系统加 office的软件公司,现在也提供了云服务,大部分还是一个软件能力为上的公司;英伟达本质上是个硬件公司,但实际上它里边的服务集群也慢慢在向软件领域发展;苹果是软硬一体化都很强的公司,它并不是一个单纯的硬件公司,它有软件生态、APP生态、支付等各种各样的服务,它如果只是一个硬件公司,实际上非常难做到这么好的生态能力和高毛利,所以软硬件是一体化的。
走向云端,
硬件是否不那么重要了?
第一财经:我们是否可以认为,未来所有的服务在推向云端的时候,硬件可以忽略掉了,或者说依托于云端服务,可以实现对软件的驱动和使用。这是否是未来的一个投资方向?
王啸:按照目前的状态来讲,我认为云侧和端侧是要配合的,需要一个端侧的载体,而且很多的推理如果全部放到云端,实际上速度是比较慢的,至少目前的网络条件下,短期内还是端云配合的架构。
所以端侧的硬件能力也很重要,它的 TFLOPS(每秒万亿次浮点运算)能不能达到大模型的要求。目前还是云端配合的逻辑,不会只有云侧没有端侧的能力,长期来看,如果端侧的硬件平台慢慢小型化、标准化之后,云侧能力和服务的价值会更凸显。
像人一般思考,
硅基智慧将取代人类智慧?
第一财经:如果真的如马斯克所预言的那样,“碳基生命是硅基生命的启动程序”,我们站在投资、布局未来角度来看,你们有没有一些投资的方向和很清晰的目标?
王啸:我们最近两三年已经在布局一些基于大模型的应用开发,这些大模型之上的应用某种意义上表现出了一定的智能。不像以前它是一个软件,按照人的指令去运作,现在我们投的这些应用,背后是基于大模型的能力,某种意义上具备了相当程度的智能性。
从这个角度来讲,这些软件背后的服务就是一个“智能体”的概念,是一个硅基智能体。当然硅基是不是一个生命体,还不能确定,因为它还不太具备生命体的特征,但是硅基智能是可以确定的。
这次大模型智能的产生,是基于大量过去互联网上产生的数据加上Transformer的算法结构,再加上英伟达巨大的算力,产生了硅基智能的涌现过程,所以它来自于三个部分要素的叠加,其中最主要的是人在过去产生的数据,把它们应用在高维度向量空间的大参数,对几十亿、上百亿的参数集进行了一次再呈现。
当我们去提问时,会发现它能像人一样思考,所以硅基生命和碳基生命是一个递进式的生成关系。硅基的智能还有演进的空间,因为它突破了生命体天然属性的限制,它可能具备的潜力比单个生命体的智能潜力可能更大。但它的突破需要数据、算力、时间,还需要一些算法上的再突破,未来有可能会形成一个超级智能体。
不断迭代十二年,
有意愿还要有方法论
第一财经:你们第五期的基金已经募集了8亿多,这些年产业投资行业变化太快,知识更新也很快,您怎么能够做到让自己一直保持迭代?
王啸:迭代本身就是一个价值观,人要不断的更新自己。首先、要有动力,想迭代、想不断做得越来越好,想对事物认知越来越深入,它首先是个动力问题。
第二、需要方法论,我们处在一个科技领域早期投资的前沿,每天聊的创始人都是各个领域中顶尖的选手,每天获取信息比较新鲜、有信息量。这要求我们信息源比较丰富。
还要有一套学习框架和方法,能够有一套对世界认知基本的框架,然后在这个基础上把每个框架当中的知识树不断的迭代。知识之间是有相通性的,比如说量子力学和很多领域相通,比如熵增熵减等常识,在物理、生命科学、社会科学等很多领域都有规律存在,并在各个领域之间相通。
如果你掌握了这些基础规律,再和当下的一些行业动态相结合,就会更好的更新自己的知识体系。我们团队也需要组织上的更新,吐旧纳新、不断升级,这些本质上都是在自我更新和迭代。
文章来自于“第一财经资讯”,作者“高远”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0