7月5日,PPTV创始人、PPIO派欧云联合创始人&CEO姚欣,与大家分享了AI世界相对确定的当下和充满想象力的远方,一同用前瞻性的眼光进行长期性规划,积极拥抱新技术。
授课老师 |
今年三月,美国一家著名对冲基金在发布的一份报告中指出了AI发展的四个阶段。目前我们还处于专注于技术设施建设的第一阶段。即将进入的第二阶段的核心特征是使手机、电脑等设备具备AI能力。第三阶段将会演变成每个人都拥有自己独有的AI助手。第四阶段则包括自动驾驶、AI机器人等更加复杂的应用场景。我把这分为相对确定的当下和充满想象力的远方。
AI发展的4个阶段
硅谷的布局也发生了很大变化,英伟达成为了硅谷的新核心,许多公司都围绕着英伟达建立起合作关系。现在在美国做AI创业,简单来说,就是你是GPU穷人还是GPU富人?因为你手上掌握的GPU数量决定了你能做多大的模型、多大的业务。
今年3月全球开发者大会(GTC)上,英伟达发布了新一代的GB200芯片,是一个CPU和两个GPU的组合,将硬件性能提升到了半导体制成的极限。GB200芯片通过更大的带宽和内存通道显著提高推理性能,比此前美国市场最先进的H100芯片提升近30倍,显著降低了算力成本。目前英伟达的订单已经排到2026年,其股价和营收有望继续超出预期。
GTC:明年推理成本可能下降 30 倍
预计九月份上市的苹果iPhone 16将具备人工智能的相关功能,这将会引发一波苹果换机潮。正如智能手机普及之初,各个操作系统都集成了大量低门槛的应用。
未来几年,边缘手机侧代码的AI能力的提升将会带来巨大的机会,iPhone和Windows设备的AI渗透率将大幅提升,许多AI应用将可以直接在手机端运行,AI算力成本将大幅降低。
英伟达的首席科学家在全球开发者大会上表示,未来机器人需要具备两个能力:一是能够在识别物理世界中的信息后做出自主判断和决策,二是能够适应不同的场景解决复杂问题。他还提出,可以通过对重力、加速度、光影折射等物理定律全模仿的方式打造一个虚拟仿真的环境,并在这个仿真环境中对机器人进行千百次的模拟测试,通过大量的算力和模拟,打造一定程度上自主可控的机器人。
任何一个产业都可以分为基础设施、中间平台和上层应用三个层次,形成一个倒三角模型。技术越通用,企业的生命周期越长、越稳定。比如做芯片的企业就因其技术具有较强的基础性而持续稳定。而应用服务类企业业务逻辑复杂,尽管爆发力强,但生命周期较短,很容易被快速迭代。
今天的AI也有类似的发展路径,可以分为基础设施、模型和应用三层。基础设施包括芯片和云服务,模型层包括开源模型、模型平台和商用模型,应用层则是将模型嵌入具体应用中。AI发展是自下而上逐渐成熟的,如果底层不成熟,上层应用也难以成功。
基础设施层面的算力需求在持续增长。自2012年深度学习兴起以来,算力需求已远超摩尔定律时期。今天AI模型更新速度极快,三到六个月就会有显著变化。这就意味着在这个信息技术高速更迭的时代,我们普通人必须不断刷新自己对技术的认知。
如果你让我在三年内只用一个指标去衡量AI发展的速度,我认为应当是AI单位成本的下降速度。AI成本的下降将带来巨大的机会,很多产品并不是技术上无法实现,而是高成本、低性价比不足以提供较强的竞争力。例如,如果用户只需支付每年九十元的订阅费即可实现自动驾驶功能,大家肯定愿意使用。从实际应用的视角出发,企业在应用AI时应优先考虑高价值的场景。随着技术逐步成熟,再逐步扩展到更多的应用领域。
95% 以上的算力将用于推理侧
信息的本质是一种可以通过数学处理转换为高维向量的东西,无论是文字、图片,还是声音、视频。AI的许多能力就是通过利用海量数据进行机器训练,并在海量信息中找到事物的相关性进行分类和编码。通过反复迭代提升简单事物的复杂性就是生成模型的核心原理。
GPT-3不仅仅是一个聚合和分类的工具,还是一个互联网知识的压缩器,以人类目前已知的所有出版物、20年的互联网信息和600万的开源代码为训练样本,并且定期更新自己的知识库。
GPT-3的另一重要能力是逻辑推理,这源自于它对编程语言的学习。编程语言是逻辑最为严谨的语言,通过学习大量的代码,GPT-3可以根据人们的提问,一步一步经过逻辑推理得出答案。
此外,GPT-3还具有安全对齐功能。在GPT模型的开发初期,可能会接收到各种各样的信息,但出于人类的共同价值观和社会规范,需要进行安全对齐工程,将模型中的一部分信息删除或屏蔽,确保模型的输出符合道德和法律要求,并引导用户以积极健康的方式解决问题。
当我们将模型参数、数据量增加十倍时,模型的性能就会得到显著提升。这一点在GPT模型的开发训练中得到验证,因此现在大量的公司进行高融资、大投入,增加模型数据量的量级。然而,这也带来了新的挑战。目前训练一个GPT-4或GPT-5模型所需的电量大概要七十万兆瓦,相当于美国一个中小型城市的用电量,对电网造成了巨大的压力。有些公司甚至考虑建立专门的核电站来支持AI模型的训练,因此,未来模型的培养方式也需要不断改进优化。
新一代的大语言模型本质上是一个数学概率的近似推理工具,解决的是近似性问题。如果需要绝对精准的答案,生成模型可能不适合,但它非常适合探索性和发散性的问题。模型的有效性依赖于丰富的数据结构。医疗领域的某些罕见病数据不够多,就难以训练出有效模型,而金融领域的数据相对丰富,更容易实现高效模型。
未来的发展趋势是混合模型架构,将云端大模型、本地中型模型和终端小模型结合使用。 根据问题的复杂程度,智能选择合适的模型进行处理。简单问题可以由终端设备处理,复杂问题则由云端大模型处理,从而实现高性价比和最佳性能。因此,不是模型越大越好,而是要根据具体需求选择合适的模型架构。
《跨越鸿沟》这本书中提到,任何一款技术最终落地的时候,都需要观察其用户渗透率。如果渗透率在5%到10%左右,那它仍处于早期阶段;但如果20%以上的用户都开始使用,就证明它已经进入到主流市场。早期市场属于创新模式,需要承担更多风险,主流市场才是更多企业应该进入和采纳的地方。因此,我们要识别当前的底层技术和应用是否已经跨越鸿沟,达到了主流市场的标准。
有一个很令人诧异的结果是,尽管硅谷的AI主流应用应该是To C,但企业更倾向于在内部使用AI进行知识处理和文本分析,在外部用于客户服务、市场营销、软件开发、合同审查等,在这些环节中AI的占比逐渐增加到百分之四五十以上。
总的来看,当前技术的落地趋势与上一代技术相似,数据丰富且能显著降低成本的应用场景,更容易实现技术落地和普及。尽管AI技术已经在许多领域有所应用,但其主流化进程尚未完成,许多企业仍处于创新阶段,主要通过开源模式和微调来进行内部部署,谨慎尝试和探索。所以说,大家别着急,AI的真正爆发尚未到来。
从投资角度看,去年约有20多亿的风险投资,其中75%投向了基础设施,只有4个亿投向了应用层。我觉得这是个好消息,意味着市场还没有太疯狂,大家都还有机会。
在分析技术应用场景的过程中,我做了一个分类,横轴表示场景的执行度,越靠左边的场景越注重执行,比如教育;越靠右边的场景越偏向情感互动,比如营销和沟通。纵轴则表示数据结构的标准化程度,越靠上表示数据结构越标准化,越靠下则表示数据较为分散。
第二象限最值得大家关注,这个领域的特点就是知识结构标准化、任务衡量信息化,非常适合大模型的应用。 如果你的工作场景涉及这些,可以考虑用AI来主导替代传统方法。下面的象限尽管数据非常分散,但AI可以极大地提升创意生产效率,辅助我们生成多种可能性。
在法律领域,AI的应用尤为明显。法律工作是非常繁重的,文本量大、条款繁多,全国各地的法律条款更新速度很快。通过收集全球大量的法律数据对模型做文本训练,可以利用其逻辑分析能力,大幅提高工作效率,并实现定制化的法律服务,给出更加结构化、逻辑性、引出性的内容。
在视频和图片编辑方面,AI也提高了工作的便捷性。在语言模型和图像处理技术的支持下,用户可以更加高效地进行视频拼接和图片处理,比如快速生成短片、自动生成视频摘要,以及添加过渡效果和背景等。
在设计方面,AI还可以应用到家装领域。用户不需要有专业的设计技能,只需提供基本的指示,AI就能将草图转换为不同的建筑风格。房地产销售团队就可以利用AI为客户生成多种家具和配色方案,帮助客户更好地理解设计并改进。
我们对全球近百款主流开源模型进行了评测,分析了它们与领域内顶尖模型的差距。一旦这些差距缩小到20%左右,我们就会将其上线,并进行优化处理,在优化其性能的同时让它的成本降低十倍。 所有的这些AI能力都被封装成便于调用的工具,而我们的平台就像一个工具箱,用户可以直接使用这些工具提升自己的业务。
我们有一家客户公司非常有趣,它专门做衬衫定制,让年轻人可以进行个性化的表达。他们可以生成任何一个图像,然后打印到衣服上,这个独一无二的Logo的生成就依赖于后台的生成能力。
还有一个客户是一家做虚拟形象的公司。今天很多人在社交平台上的头像都不愿意挂自己的真实照片,而是选择虚拟形象。利用我们的AI功能,用户就可以轻松实现虚拟形象生成,还可以一键换风格。
去年一整年,全球范围内的AI访问量大概在240亿次,这个量虽然还行,但是和互联网相比还是太少了,只是互联网访问量的10%左右。全球访问排名美国是第一,差不多占总量的四分之一,第二是印度,第三是印度尼西亚。中国的AI用户量大概是全球用户的5%左右,但移动互联网时期中国占全球的30%-40%,所以中国的AI应用还有10到20倍的提升空间。
To C类应用在内容生成、编辑处理、工作辅助等方面做得不错,但还没有在用户参与度高、市场足够大的社交、视频、游戏等应用领域出现。从全球来看,To C侧的AI应用还处于一个类似2009-2010年的移动互联网的状态中,有很多尝试和探索,但还不成熟,AI应用榜单上的前五十名,有二十多个都是新出现的,并且很多公司可能在半年后就消失。我觉得这对于中国人、对于华人来讲也是一次重大的机会,因为他们其实对全球市场更加熟悉,不仅美国有机会,印度、印尼这些市场里也有很多发展机会。
总的来说,我们今天的确能看到这一次的AI突破了上一代能力的上限。大模型和创新技术的涌现,让我们有机会在两三年内见证一个充满想象力的未来,包括个人AI助手、自动驾驶等技术的落地。这些技术已经可行,只是成本下降的问题。两个月的时间国内大模型的价格已经下降了97%,这对于整个行业和技术的成熟度来说是非常重要的。我做PPTV的时候统计了,2004年到2010年视频的传输成本下降了1000倍,这才得以让大家用免费广告模式看视频。这也是AI普及、迎来AI的“iPhone时刻”的关键所在。
高科技领域有一条著名的曲线叫做Gartner 技术成熟度曲线(技术炒作曲线),当人们的预期非常高,但技术的进步速度又不够的时候,人们就会产生一个预期落空的过程,纷纷讲这个技术不靠谱、没有用。现在行业对AI的信心太多了,但是现阶段的AI也有很多无法解决的基础性问题,毫无疑问今天AI行业存在巨大的泡沫,很有可能就是今明两年的时间,就会出现一次泡沫破灭,我相信很多人会信心崩溃。但是技术是在不断迭代的,当技术的成熟度与我们的预期基本符合的时候,就开始进入到光明期,慢慢成长起来。
Gartner 技术成熟度曲线
美国的一些公司积累了十几年,形成了一套软件库,他们所有的软件产品都是以未来十年为周期进行规划,为了量子计算在未来能够落地,他们现在就开始做量子编程的相关工作。长期性规划和前瞻性投资,这是美国这些大公司的独特之处,尽管这些投资失败率很高,但一旦成功,就会带来巨大的回报。
很多做传统生意的人可能觉得这些科技上的东西与自己没有关系,但即使是对于传统企业而言,参与到新一轮的技术浪潮或防范竞争对手利用新技术颠覆行业都是非常重要的。十年前,面对互联网的兴起也产生了两种声音,有人说互联网是一种思维,有人说互联网只是一个技术,只是一个产品业务。我的观点是两者都对,要看具体的使用场景和落地时间。
一个投资人应该要关注未来几年内会产生的变化,以选择合适的赛道和企业,并在合适的时间引入新技术。我建议大家首先识别自己的应用场景,特别是那些标准化程度高的场景,在这些领域中可以进行一些有益的尝试。新技术不仅适用于高大上的项目,哪怕是更换电商背景图、制作视频或是提升面试效果,AI也能渗透到我们的生活和工作中。
作为从业者,我们还需要密切关注和追踪底层技术的变化,这种一日千里的过程中很容易甩开大家。我们总是高估了未来两年的变化,却低估了未来十年的变化,这是人性的常态。但从商业决策的角度看,我们要跳出这一点,拥抱新技术,同时谨慎地落地和实施。
本文来自微信公众号“混沌学园”(ID:hundun-university),作者:混沌学园
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner