很荣幸受邀参与红衣大叔的第二次公开课,本次分享主题为“企业如何拥抱 AI ”,大叔对 AI 的判断鞭辟入里,许多观点非常值得学习。
于是我基于 360AI 浏览器 AI 阅读视频功能,提炼了其中的核心内容,分享于此。如果想要看完整视频,可以前往“红衣大叔周鸿祎”视频号观看直播回放。
此外,上次咱们介绍了加持了AI的360浏览器,强大到让人感到陌生,后续有粉丝朋友表示确实体验非常不错,听说 360AI 办公也要上线了,会集成 AI 生图、AI 写作、AI 视频等 100+ 办公工具,浅浅期待一下。
每次我在用大模型的时候,我越用越有一种敬畏心理,虽然我努力说服自己,这玩意儿就是个机器,但是你在给它输不同的词汇的时候,它确实反应是不一样的。
“AGI 正在加速到来。”
“大模型是一场工业革命。”
尽管每个技术出来都说自己是革命,比如 VR、Web3、比特币、区块链,每个人都号称自己要掀起一场革命,但是事实证明很多东西有的是技术创新,有的是产品体验创新,有的是商业模式创新。只有大模型是一场真正的工业革命。
“大模型将重塑所有产品和业务。”
最近美国 VC 轮着出各种报告,在美国 VC 心目中,他们把这已经看成了是 1995 年的互联网,1982 年的个人电脑。所以工业革命意味着什么?就是大模型将重塑所有的产品和业务。
“不拥抱 AI 的公司会被淘汰。”
上至各国的领导人,下至企业里、工厂里打螺丝的工人,大家可能都关心说人工智能这玩意出来了,AI 已经不是一个科技话题,AI 今天是一个社会话题。
“不拥抱 AI 的员工会被淘汰。”
我一直坚信大模型对于每个人来讲,是人类有史以来发明的最好的一个生产力工具,可以提升我们个人的能力。所以一般情况下我认为有了大模型并不意味着你会失业,因为你提高了工作效率,甚至解锁了你很多过去不具备的能力。
AI 产业发展的十六个趋势
在风马牛那个晚会上,后来因为出了场闹剧,大家注意力都被转移了。大家都在讨论我面对这个挑衅如何镇定应对,那个真不算。我的看家本事是在前面花了 40 分钟做了场脱口秀,讲 AI 发展的 10 个趋势。风马牛讲完不到两个月,我数了一下,它有七八个趋势都已经初步被验证(以下将略讲已被初步验证的趋势)。
“开源大模型爆发,大模型未来将无处不在。”
“未来大国间 AGI 竞争的关键是‘云端超级大模型’,规模越做越大。”
最近美国的巨头都在进军这个领域。
“大模型同时越做越小,搭载于智能终端。”
这两天斯坦福推了一个叫章鱼的大模型,可以跑在手机上。杨元庆这两天也在推 AIPC。
“企业级大模型市场崛起,企业会同时拥有多个垂直大模型。”
“多模态成为大模型的关键能力。”
“文生图、文生视频等 AIGC 功能突破性增长。”
“ToC 继续涌现杀手级应用。”
“知识工程成为大模型落地的决定性要素。”
OpenAI 在 2021 年据说已经把能找到的人类的知识文本都用完了,不要看互联网上满是数据,数据不等于信息,信息不等于知识,知识不等于智慧。
过去老有人自我讽刺,老有人妄自菲薄,看不起我们国内的这些从业者,说世界上搞人工智能,他们在搞智能,我们在搞人工。但这个段子到今天有了正解,没有人工哪来的智能啊?我们将来发挥我们人口红利,培养很多的人工智能训练师,我们大量的产生像百度“弱智吧”这样的内容,这样可以给我们的人工智能做更好的训练。百度“弱智吧”里边充满了双关语,充满了深刻的逻辑和各种各样的梗,它对大模型提高逻辑能力、提升回答技能能力是非常显著的。
“AI Agent 激发大模型潜能成为超级生产力工具。”
Agent 架构,最近吴恩达——著名的人工智能世界级科学家,讲了好几次 Agent 的课。他反复讲到 Agent 架构对大模型至关重要,这是我今天一个讲课的重点(也是咱们特工宇宙的重点,后面会详细讲这一部分)。
“人形机器人产业发展获得十倍加速。”
FigureAI 跟 GPT 合作做的机器人进步很快,可以看我们之前这篇文章:又一革新,当ChatGPT有了肉体。
“大模型认知能力不断提升,自动驾驶迎来革命性变化。”
特斯拉已经在自动驾驶上,至少暂时从电车的这个层次跳出来了。最近马斯克宣布要做自动出租车车队。
“大模型帮助生物科学等基础科学研究突破瓶颈。”
“AI安全变得前所未有重要。”
“芯片性能每年翻 10 倍,6 年将提升 100 万倍,算力规模每半年翻 1 倍。”
算力需要的规模我这瞎说了一下,欢迎大家提供更准确的数据。我觉得每半年可能翻一倍,我希望测一下我们AI行业有没有摩尔定律。
“能源成为 AI 甚至人类文明发展瓶颈,唯一破解方法是解决可控核聚变。”
“大模型和硬件结合会带来新产业革命。”
这个趋势今天 CES 已经表现出来了,这里边的创业机会、创业空间非常之大,因为很多硬件一旦加上大模型的能力就会真正实现升级。
我多给大家分享一句,现在的大模型可在 4 个点给智能硬件增加不可思议的功能????
第一个,用大语言模型增加耳朵、增加嘴巴,就能听懂你说什么,能够跟你用语言做交流,这是第一个突破。
第二个是增加大视觉模型,也就是说以后所有的硬件都会带摄像头,其实你们家的扫地机器人已经快具备这些能力了,都带有麦克风,带有扬声器,都带有摄像头接上大视觉模型多模态能力,那么它就可以看懂发生什么,看懂自己处在一个什么环境。
第三个是大模型加上 Agent 架构,使你的智能硬件真正有了一个能够做推理、分析、分解任务的大脑。
第四个,是具身智能,但具身智能我们研究的不多,是指这些硬件能不能动起来。前三个改变对现在的很多硬件的体验来说,已经差异于过去十倍的体验了。这次小米也率人演示了小米 AI 大模型,把小爱同学做了升级。有了大模型之后,这个车就真的像有了灵魂一样,它能理解你说的每一句话。
红衣大叔:这 16 个趋势信息量比较大,大家可以慢慢去琢磨,可以看看哪一条风口你能撞上,都会有巨大的机会。
大模型三大趋势
“做多个专家小模型混合的MoE架构。”
Mixture of Experts,混合专家模型架构。把一个大型的架构拆成多个小规模的大模型,就是说当你问大模型问题的时候,并不是它的 1 万亿参数同时在发挥作用,它可能从 16 个小模型中挑了两个小模型来激活来回答你的问题。
现在大模型我们在训练过程中发现一个很痛苦的情况,在座的诸位有没有训过大模型呢?你想让它提高点运算能力,你就准备了点奥数题去训它,结果发现它的历史能力或者外语能力就下降,你再改完就再给它灌输点物理或这个外语题,它的文学能力又下降,反正就是按下葫芦起了瓢。所以最后发现说每次学习的时候,就得把各种各样的知识均匀地弄一份。所以未来我们做垂直模型之后就可以避免这个毛病。比如我专门有个做计算的模型,如果你觉得我计算力比较弱,我就专攻这个模型,这个模型不会做翻译,我专门有个做翻译的模型,那我就可以把翻译做得很强。
“大模型终端化,上车上手机上 PC 。”
大家想想,大模型肯定不能放云端啊,一断电了这玩意就死了,被 hack 了怎么办?我遥控你们家的大模型,然后用你们家的机器人把你给消灭了。
还有一个他知道你所有的隐私,你在家里穿着小裤衩跑来跑去的时候,全被大模型看在眼里,这数据肯定不能传在云端啊。所以大模型上终端一定是一个趋势。
我跟大家预言,因为苹果有研发 CPU 的能力,因为它的 GPU 也很强,那么苹果一定它的大模型,它现在可能会暂时跟 Gemini 合作,现在会暂时和百度合作,但是苹果一旦自研的大模型出来之后,一定会跟手机深度整合的。因为手机今天是了解我们个人隐私最多的东西,手机都不是一个物件,手机是我们每个人新长出来一个新的器官。
“开源大模型爆发。”
有的人不相信开源的力量,但是你可以看一看,说最近开源的发展,虽然闭源你依靠一家公司 OpenAI 现在暂时领先,因为它比别人先发了 5 年嘛。但现在开源的发展速度非常快,而且美国开源都不是一个单纯的开源,背后都有很多大公司的支持。所以我举个例子,如果 OpenAI 把 GPT 免费了,它的目的实际上我认为是在想消灭搜索,是 Google 一年几百亿上千亿美金的一个生意。这具体的收入我没查,大家可以具体查,应该是在这个量级。那 Google 就会非常难受,但是那 Google 怎么反击呢?Google 的招数就是把 Gemini 给开源了,让美国每家公司都有一个不逊色于 GPT4 的大模型可以用,而且可以免费用,减少人们用 GPT4。所以当年没有 Linux 的开源,就没有互联网,这个话没的说错。你知道谁在背后支持 Linux 吗?除了这些程序员之外,像 SCAN 公司,像 Oracle,还有像 IBM ,微软的老朋友、老友商都在拼命的给开源的 Linux 在贡献代码,贡献核心技术。
企业大模型五大关键问题
“关键问题一:AI 科普。”
AI 和云计算大数据不一样,它跟全体员工都有关系。我们公司上云,用大数据,绝大多数员工不需要关心这件事, AI 是一个需要全员做科普、普及的一个技术。所以我们认为大家在拥抱AI的时候,这不光是老板的事,在内部让你的全职员工都要使用 AI。如果大家都不用 AI,对AI有各种莫名其妙的恐惧、误解,甚至觉得用AI会导致我离职,会导致老板更加剥削我,那这个公司 AI 是搞不起来的。
“关键问题二:知识管理。”
没有知识就没有办法训练大模型,没有知识就没办法做知识对齐。因为在企业内部知识对齐是件很重要的事,就是保证大模型不会无中生有,不会杜撰或者产生幻觉,所以知识管理非常重要。
但是扪心自问,很多企业你们内部有知识管理吗?内部的知识在哪里呢?大家去认认真真思考这个问题,我们现在看到了很多失败的例子,都是大家需求场景找到了,发现没有知识。
还有很多企业有说我有大数据,但是注意,大数据到信息、到知识、到洞察、到智慧,它是需要一层层提炼的(这里大叔引用了 Gapingvoid 的经典图????),所以大数据如何从中提炼知识,这也是知识管理的一个挑战。
大模型是把原来看起来没有用的数据,能变成知识。举个例子,很多公司都做过大数据中台,传统的大数据比较偏数计算型的数字,所以原来的模型都是数学模型。其实我们很多企业有很多聊天记录、邮件记录,这些非结构化的数据,原来很难被作为大数据做计算。但有了大模型之后,大模型能理解人类的语言和知识,这些非结构化的文本类信息,包括老板手写的备忘录、会议记录这些原来传统中不被认为是大数据的这些数据,都可以变成有效的知识。这是大模型时代给我们带来的一个好处。
很多企业,其实只有明知识,没有暗知识。我第一个提了暗知识的概念。什么叫明知识呢?就是你容易找到的公开知识,企业内部的手册等,互联网上可以搜索到的知识,这些都是明知识,大模型基本上都能找到。但是你们想想企业暗知识多不多,它在企业内部,但它碎片化难以找到。比如说邮件文档、聊天记录、工作记录,还有很多知识在员工的脑子里,员工离职了就带走了一些知识。一个员工离职没有交接好,突然有一天有个 PPT 没有交接,在这个聊天记录里边,所以如何把这些暗知识搜集起来,是我们很多企业要考虑的。
还有一种叫潜知识,比如说企业里面数据经过二次加工分析才能产生的新知识。比如说我们有一个医院有很多的化验报告,化验报告全是血红蛋白各种数字,这个进行加工之后才能变成知识。所以这种浅知识的利用也是很多企业要面临的问题。
还有一个叫隐知识,我们企业有 ERP、财务、HR系统,每天这些管理业务系统的中间操作过程,比如中间的订单、中间的简历的筛选、中间的公司内部工单记录。这些过去都不认为是企业知识,但今天实际上我们发现它在企业训练专业大模型的时候,它们都变成企业很重要的知识。
所以企业我觉得要考虑做企业大模型的两个基础设施,一个叫知识中枢,一个叫情报中枢。说白了一个是内部知识,一个是外部知识。所以垂直场景加上刚才说的专有知识,形成知识的闭环,并且持续优化企业大模型。
“关键问题三:AI 安全。”
大模型我们在企业内部,可不单单是一个聊天机器人,它会和我们的内部的 API 结合在一起,所以安全会出来很多问题,那如何做到那大模型可靠、向善、可信、可控?所以 360 提供了一个安全大模型,就专门用来解决大模型安全问题。
这里边就把大模型的安全问题分了 6 层,传统的网络安全、数据安全、算力安全、算法安全、内容安全,最后一个问题暂时不用考虑,就是人类的安全问题,这个可能等到 AGI 出来以后再说吧。所以解决 AI 安全问题,要以模制模,所以 360 提供这个安全大模型来帮助你们解决大模型的安全问题。
“关键问题四:模型打造。”
企业大模型不是从 0 开始训练,是从千亿模型蒸馏出来的百亿模型。
吴恩达最近一个观点我非常赞同,“GPT 3.5+Agent 优于 GPT4”。你可以认为,现在做一个大模型,如果没有 Agent 架构,大模型将会一事无成,特别在企业内部。因为大模型的能力还有很多欠缺。Agent 架构恰恰能够在企业弥补大模型的很多不足。
特工少女:可以看看我们之前的这篇文章:Agent > GPT5?吴恩达最新演讲:四种 Agent 设计范式(通俗易懂版)
中文我们把 Agent 框架翻译成“智能体”。它能增强大模型的六大能力——交互增强、模型增强、规划增强、记忆增强、知识增强和工具增强。
Agent框架解决“慢思考”问题
特工少女:这个观点最早是华为天才少年李博杰,在知乎 AI 先行者活动中的 “Agent 的下一站,是有趣又有用” 一分享主题中提到的。
我简单来解释一下。它要模拟人脑,人脑的系统里面有两套系统,一套叫快思考,一套叫慢思考。快思考就是生物本能,慢思考就需要衡量。今天大模型快思考的能力已经超过人类了。大模型回答问题不一定对,但是大模型自己没法反悔,所以 Agent 架构里引入了一个框架。就是说我们可以用 Agent 框架来让大模型进行反思,对自己的答案进行检测,进行二次回答,所以大模型不是只调用一次就能出最好的结果。
打个比方,你来问我一个难题,要求说我马上回答,不许修改、不许出错,一气呵成,我也做不到。其实真要讨论一个问题,肯定是经过很多次,慢慢就能找到答案。这才是人脑真正的工作过程。所以 Agent 框架可以让 GPT3.5 多次工作。
我上次举了一个例子,你找一个翻译专家,他也不会只翻译一遍,他会先粗粗翻译一遍,然后再进行润色修改,再来对照原文。那现在你给大模型说把这篇中文翻译成英文,凭什么就要求大模型一次就到位呢?如果你要求大模型做三次,我告诉你翻译的结果会比第一次好很多。所以在企业内部 Agent 架构非常重要。
RAG 知识增强,RAG 可为大模型提供知识增强和知识对齐,提升事实准确性,降低幻觉。
大模型会出错,要防止它出错,就要做知识对齐。这个知识对齐既包括内部知识,也包括外部知识。所以最近 360 推出来的 360 AI 搜索,我用起来就很放心。他所有的答案都先在网上搜一遍,把网上搜到的东西做了理解,再来给我做答案。而不是无中生有瞎编。
Agent 框架解决“专家协同”问题
企业未来会有多个专业大模型,我们提出来一个 COE 的概念,多个专家模型扮演不同的角色,就类似人的大脑,有不同的语言中枢、规划中枢、判别中枢、记忆中枢一样来进行协作。
Agent 框架解决“人机界面”问题,不要迷信 Prompt
在企业里边,如果你全是 Prompt,这个企业用大模型一定会失败的。因为你的员工能力水平参差不齐。你想我们人跟人之间沟通还特别费力,你要求你的员工都是 Prompt 专家,所以 Prompt 这种界面,我们称为 LUI。有人说会彻底否定掉 GUI 这个观点是不对的。大模型通过 Agent 框架会把你企业原来的 API 和常见的鼠标键盘界面连在一起,这种操作对员工可能是最简便的。
我们也在探索一个 CUI,就一个聊天室的数字人的界面,但从现在来看,它作为一个补充是可以的,因为你什么事都要跟通过语言方式来表达,在企业内部并不是最高效率的。
Agent 框架解决“工具增强”问题
大模型的能力实际上是很弱的,很多事都干不了。比如你让它订餐、订票、查航班,它必须有很多工具向它开放,大模型才有了手跟脚,那除了外部的工具之后,在企业内部我们有很多系统,你能不开放吗?假设啥都不让我碰,什么数据库我都没有账号,那我只能给你夸夸其谈,但是如果我都能操纵这些东西,那我作为一个专业员工,我就能发挥作用。所以如果没有 Agent 框架,光有个大模型,在企业内部实际上啥活也干不了。
“关键问题五:业务融合。”
企业大模型不是顾问,他不能只说不练,也不能取代原来的IT 系统,它要和你原来的业务系统紧密耦合在一起,协同工作,所以这就需要一套工作流。
我举一个例子,比如你做了一个 AI 面试,这只是一个单点功能,面试完了之后我怎么把面试结果发到公司 HR 系统里?我怎么通知 HR 这个人录用或者不录用。实际上这些功能都不是大模型在做,都需要一套工作流系统,把大模型 Agent 框架的能力跟企业原来的业务系统紧密的连在一起,实际上需要一个更大的 Agent 框架。
文章来自微信公众号“特工宇宙”,作者 特工少女
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址:https://github.com/xszyou/Fay
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales