ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
周鸿祎:2024 年 AI 产业发展的 16 个趋势
8604点击    2024-04-12 11:10

很荣幸受邀参与红衣大叔的第二次公开课,本次分享主题为“企业如何拥抱 AI ”,大叔对 AI 的判断鞭辟入里,许多观点非常值得学习。


于是我基于 360AI 浏览器 AI 阅读视频功能,提炼了其中的核心内容,分享于此。如果想要看完整视频,可以前往“红衣大叔周鸿祎”视频号观看直播回放。



此外,上次咱们介绍了加持了AI的360浏览器,强大到让人感到陌生,后续有粉丝朋友表示确实体验非常不错,听说 360AI 办公也要上线了,会集成 AI 生图、AI 写作、AI 视频等 100+ 办公工具,浅浅期待一下。


企业需要建立的六个 AI 认知


大模型是真智能。


每次我在用大模型的时候,我越用越有一种敬畏心理,虽然我努力说服自己,这玩意儿就是个机器,但是你在给它输不同的词汇的时候,它确实反应是不一样的。


AGI 正在加速到来。


大模型是一场工业革命。


尽管每个技术出来都说自己是革命,比如 VR、Web3、比特币、区块链,每个人都号称自己要掀起一场革命,但是事实证明很多东西有的是技术创新,有的是产品体验创新,有的是商业模式创新。只有大模型是一场真正的工业革命。


大模型将重塑所有产品和业务。


最近美国 VC 轮着出各种报告,在美国 VC 心目中,他们把这已经看成了是 1995 年的互联网,1982 年的个人电脑。所以工业革命意味着什么?就是大模型将重塑所有的产品和业务。


不拥抱 AI 的公司会被淘汰。


上至各国的领导人,下至企业里、工厂里打螺丝的工人,大家可能都关心说人工智能这玩意出来了,AI 已经不是一个科技话题,AI 今天是一个社会话题。


不拥抱 AI 的员工会被淘汰。


我一直坚信大模型对于每个人来讲,是人类有史以来发明的最好的一个生产力工具,可以提升我们个人的能力。所以一般情况下我认为有了大模型并不意味着你会失业,因为你提高了工作效率,甚至解锁了你很多过去不具备的能力。


AI 产业发展的十六个趋势


在风马牛那个晚会上,后来因为出了场闹剧,大家注意力都被转移了。大家都在讨论我面对这个挑衅如何镇定应对,那个真不算。我的看家本事是在前面花了 40 分钟做了场脱口秀,讲 AI 发展的 10 个趋势。风马牛讲完不到两个月,我数了一下,它有七八个趋势都已经初步被验证以下将略讲已被初步验证的趋势)。


开源大模型爆发,大模型未来将无处不在。


未来大国间 AGI 竞争的关键是‘云端超级大模型’,规模越做越大。


最近美国的巨头都在进军这个领域。


大模型同时越做越小,搭载于智能终端。


这两天斯坦福推了一个叫章鱼的大模型,可以跑在手机上。杨元庆这两天也在推 AIPC。


企业级大模型市场崛起,企业会同时拥有多个垂直大模型。


多模态成为大模型的关键能力。


文生图、文生视频等 AIGC 功能突破性增长。


ToC 继续涌现杀手级应用。


知识工程成为大模型落地的决定性要素。


OpenAI 在 2021 年据说已经把能找到的人类的知识文本都用完了,不要看互联网上满是数据,数据不等于信息,信息不等于知识,知识不等于智慧。


过去老有人自我讽刺,老有人妄自菲薄,看不起我们国内的这些从业者,说世界上搞人工智能,他们在搞智能,我们在搞人工。但这个段子到今天有了正解,没有人工哪来的智能啊?我们将来发挥我们人口红利,培养很多的人工智能训练师,我们大量的产生像百度“弱智吧”这样的内容,这样可以给我们的人工智能做更好的训练。百度“弱智吧”里边充满了双关语,充满了深刻的逻辑和各种各样的梗,它对大模型提高逻辑能力、提升回答技能能力是非常显著的。


AI Agent 激发大模型潜能成为超级生产力工具。


Agent 架构,最近吴恩达——著名的人工智能世界级科学家,讲了好几次 Agent 的课。他反复讲到 Agent 架构对大模型至关重要,这是我今天一个讲课的重点(也是咱们特工宇宙的重点,后面会详细讲这一部分)。


人形机器人产业发展获得十倍加速。


FigureAI 跟 GPT 合作做的机器人进步很快,可以看我们之前这篇文章:又一革新,当ChatGPT有了肉体。


大模型认知能力不断提升,自动驾驶迎来革命性变化。


特斯拉已经在自动驾驶上,至少暂时从电车的这个层次跳出来了。最近马斯克宣布要做自动出租车车队。


大模型帮助生物科学等基础科学研究突破瓶颈。


AI安全变得前所未有重要。


芯片性能每年翻 10 倍,6 年将提升 100 万倍,算力规模每半年翻 1 倍。


算力需要的规模我这瞎说了一下,欢迎大家提供更准确的数据。我觉得每半年可能翻一倍,我希望测一下我们AI行业有没有摩尔定律。


能源成为 AI 甚至人类文明发展瓶颈,唯一破解方法是解决可控核聚变。


大模型和硬件结合会带来新产业革命。


这个趋势今天 CES 已经表现出来了,这里边的创业机会、创业空间非常之大,因为很多硬件一旦加上大模型的能力就会真正实现升级。


我多给大家分享一句,现在的大模型可在 4 个点给智能硬件增加不可思议的功能????


第一个,用大语言模型增加耳朵、增加嘴巴,就能听懂你说什么,能够跟你用语言做交流,这是第一个突破。

第二个是增加大视觉模型,也就是说以后所有的硬件都会带摄像头,其实你们家的扫地机器人已经快具备这些能力了,都带有麦克风,带有扬声器,都带有摄像头接上大视觉模型多模态能力,那么它就可以看懂发生什么,看懂自己处在一个什么环境。

第三个是大模型加上 Agent 架构,使你的智能硬件真正有了一个能够做推理、分析、分解任务的大脑。

第四个,是具身智能,但具身智能我们研究的不多,是指这些硬件能不能动起来。前三个改变对现在的很多硬件的体验来说,已经差异于过去十倍的体验了。这次小米也率人演示了小米 AI 大模型,把小爱同学做了升级。有了大模型之后,这个车就真的像有了灵魂一样,它能理解你说的每一句话。


红衣大叔:这 16 个趋势信息量比较大,大家可以慢慢去琢磨,可以看看哪一条风口你能撞上,都会有巨大的机会。


大模型三大趋势


做多个专家小模型混合的MoE架构。



Mixture of Experts,混合专家模型架构。把一个大型的架构拆成多个小规模的大模型,就是说当你问大模型问题的时候,并不是它的 1 万亿参数同时在发挥作用,它可能从 16 个小模型中挑了两个小模型来激活来回答你的问题。


现在大模型我们在训练过程中发现一个很痛苦的情况,在座的诸位有没有训过大模型呢?你想让它提高点运算能力,你就准备了点奥数题去训它,结果发现它的历史能力或者外语能力就下降,你再改完就再给它灌输点物理或这个外语题,它的文学能力又下降,反正就是按下葫芦起了瓢。所以最后发现说每次学习的时候,就得把各种各样的知识均匀地弄一份。所以未来我们做垂直模型之后就可以避免这个毛病。比如我专门有个做计算的模型,如果你觉得我计算力比较弱,我就专攻这个模型,这个模型不会做翻译,我专门有个做翻译的模型,那我就可以把翻译做得很强。


大模型终端化,上车上手机上 PC 。



大家想想,大模型肯定不能放云端啊,一断电了这玩意就死了,被 hack 了怎么办?我遥控你们家的大模型,然后用你们家的机器人把你给消灭了。


还有一个他知道你所有的隐私,你在家里穿着小裤衩跑来跑去的时候,全被大模型看在眼里,这数据肯定不能传在云端啊。所以大模型上终端一定是一个趋势。


我跟大家预言,因为苹果有研发 CPU 的能力,因为它的 GPU 也很强,那么苹果一定它的大模型,它现在可能会暂时跟 Gemini 合作,现在会暂时和百度合作,但是苹果一旦自研的大模型出来之后,一定会跟手机深度整合的。因为手机今天是了解我们个人隐私最多的东西,手机都不是一个物件,手机是我们每个人新长出来一个新的器官。


开源大模型爆发。



有的人不相信开源的力量,但是你可以看一看,说最近开源的发展,虽然闭源你依靠一家公司 OpenAI 现在暂时领先,因为它比别人先发了 5 年嘛。但现在开源的发展速度非常快,而且美国开源都不是一个单纯的开源,背后都有很多大公司的支持。所以我举个例子,如果 OpenAI 把 GPT 免费了,它的目的实际上我认为是在想消灭搜索,是 Google 一年几百亿上千亿美金的一个生意。这具体的收入我没查,大家可以具体查,应该是在这个量级。那 Google 就会非常难受,但是那 Google 怎么反击呢?Google 的招数就是把 Gemini 给开源了,让美国每家公司都有一个不逊色于 GPT4 的大模型可以用,而且可以免费用,减少人们用 GPT4。所以当年没有 Linux 的开源,就没有互联网,这个话没的说错。你知道谁在背后支持 Linux 吗?除了这些程序员之外,像 SCAN 公司,像 Oracle,还有像 IBM ,微软的老朋友、老友商都在拼命的给开源的 Linux 在贡献代码,贡献核心技术。


企业大模型五大关键问题


关键问题一:AI 科普。


AI 和云计算大数据不一样,它跟全体员工都有关系。我们公司上云,用大数据,绝大多数员工不需要关心这件事, AI 是一个需要全员做科普、普及的一个技术。所以我们认为大家在拥抱AI的时候,这不光是老板的事,在内部让你的全职员工都要使用 AI。如果大家都不用 AI,对AI有各种莫名其妙的恐惧、误解,甚至觉得用AI会导致我离职,会导致老板更加剥削我,那这个公司 AI 是搞不起来的。


关键问题二:知识管理。


没有知识就没有办法训练大模型,没有知识就没办法做知识对齐。因为在企业内部知识对齐是件很重要的事,就是保证大模型不会无中生有,不会杜撰或者产生幻觉,所以知识管理非常重要。


但是扪心自问,很多企业你们内部有知识管理吗?内部的知识在哪里呢?大家去认认真真思考这个问题,我们现在看到了很多失败的例子,都是大家需求场景找到了,发现没有知识。


还有很多企业有说我有大数据,但是注意,大数据到信息、到知识、到洞察、到智慧,它是需要一层层提炼的(这里大叔引用了 Gapingvoid 的经典图????),所以大数据如何从中提炼知识,这也是知识管理的一个挑战。



大模型是把原来看起来没有用的数据,能变成知识。举个例子,很多公司都做过大数据中台,传统的大数据比较偏数计算型的数字,所以原来的模型都是数学模型。其实我们很多企业有很多聊天记录、邮件记录,这些非结构化的数据,原来很难被作为大数据做计算。但有了大模型之后,大模型能理解人类的语言和知识,这些非结构化的文本类信息,包括老板手写的备忘录、会议记录这些原来传统中不被认为是大数据的这些数据,都可以变成有效的知识。这是大模型时代给我们带来的一个好处。


很多企业,其实只有明知识,没有暗知识。我第一个提了暗知识的概念。什么叫明知识呢?就是你容易找到的公开知识,企业内部的手册等,互联网上可以搜索到的知识,这些都是明知识,大模型基本上都能找到。但是你们想想企业暗知识多不多,它在企业内部,但它碎片化难以找到。比如说邮件文档、聊天记录、工作记录,还有很多知识在员工的脑子里,员工离职了就带走了一些知识。一个员工离职没有交接好,突然有一天有个 PPT 没有交接,在这个聊天记录里边,所以如何把这些暗知识搜集起来,是我们很多企业要考虑的。


还有一种叫潜知识,比如说企业里面数据经过二次加工分析才能产生的新知识。比如说我们有一个医院有很多的化验报告,化验报告全是血红蛋白各种数字,这个进行加工之后才能变成知识。所以这种浅知识的利用也是很多企业要面临的问题。


还有一个叫隐知识,我们企业有 ERP、财务、HR系统,每天这些管理业务系统的中间操作过程,比如中间的订单、中间的简历的筛选、中间的公司内部工单记录。这些过去都不认为是企业知识,但今天实际上我们发现它在企业训练专业大模型的时候,它们都变成企业很重要的知识。


所以企业我觉得要考虑做企业大模型的两个基础设施,一个叫知识中枢,一个叫情报中枢。说白了一个是内部知识,一个是外部知识。所以垂直场景加上刚才说的专有知识,形成知识的闭环,并且持续优化企业大模型。


关键问题三:AI 安全。


大模型我们在企业内部,可不单单是一个聊天机器人,它会和我们的内部的 API 结合在一起,所以安全会出来很多问题,那如何做到那大模型可靠、向善、可信、可控?所以 360 提供了一个安全大模型,就专门用来解决大模型安全问题。


这里边就把大模型的安全问题分了 6 层,传统的网络安全、数据安全、算力安全、算法安全、内容安全,最后一个问题暂时不用考虑,就是人类的安全问题,这个可能等到 AGI 出来以后再说吧。所以解决 AI 安全问题,要以模制模,所以 360 提供这个安全大模型来帮助你们解决大模型的安全问题。


关键问题四:模型打造。


企业大模型不是从 0 开始训练,是从千亿模型蒸馏出来的百亿模型。


吴恩达最近一个观点我非常赞同,“GPT 3.5+Agent 优于 GPT4”。你可以认为,现在做一个大模型,如果没有 Agent 架构,大模型将会一事无成,特别在企业内部。因为大模型的能力还有很多欠缺。Agent 架构恰恰能够在企业弥补大模型的很多不足。


特工少女:可以看看我们之前的这篇文章:Agent > GPT5?吴恩达最新演讲:四种 Agent 设计范式(通俗易懂版)


中文我们把 Agent 框架翻译成“智能体”。它能增强大模型的六大能力——交互增强、模型增强、规划增强、记忆增强、知识增强和工具增强。


Agent框架解决“慢思考”问题


特工少女:这个观点最早是华为天才少年李博杰,在知乎 AI 先行者活动中的 “Agent 的下一站,是有趣又有用” 一分享主题中提到的。


我简单来解释一下。它要模拟人脑,人脑的系统里面有两套系统,一套叫快思考,一套叫慢思考。快思考就是生物本能,慢思考就需要衡量。今天大模型快思考的能力已经超过人类了。大模型回答问题不一定对,但是大模型自己没法反悔,所以 Agent 架构里引入了一个框架。就是说我们可以用 Agent 框架来让大模型进行反思,对自己的答案进行检测,进行二次回答,所以大模型不是只调用一次就能出最好的结果。



打个比方,你来问我一个难题,要求说我马上回答,不许修改、不许出错,一气呵成,我也做不到。其实真要讨论一个问题,肯定是经过很多次,慢慢就能找到答案。这才是人脑真正的工作过程。所以 Agent 框架可以让 GPT3.5 多次工作。


我上次举了一个例子,你找一个翻译专家,他也不会只翻译一遍,他会先粗粗翻译一遍,然后再进行润色修改,再来对照原文。那现在你给大模型说把这篇中文翻译成英文,凭什么就要求大模型一次就到位呢?如果你要求大模型做三次,我告诉你翻译的结果会比第一次好很多。所以在企业内部 Agent 架构非常重要。


RAG 知识增强,RAG 可为大模型提供知识增强和知识对齐,提升事实准确性,降低幻觉。


大模型会出错,要防止它出错,就要做知识对齐。这个知识对齐既包括内部知识,也包括外部知识。所以最近 360 推出来的 360 AI 搜索,我用起来就很放心。他所有的答案都先在网上搜一遍,把网上搜到的东西做了理解,再来给我做答案。而不是无中生有瞎编。


Agent 框架解决“专家协同”问题


企业未来会有多个专业大模型,我们提出来一个 COE 的概念,多个专家模型扮演不同的角色,就类似人的大脑,有不同的语言中枢、规划中枢、判别中枢、记忆中枢一样来进行协作。


Agent 框架解决“人机界面”问题,不要迷信 Prompt


在企业里边,如果你全是 Prompt,这个企业用大模型一定会失败的。因为你的员工能力水平参差不齐。你想我们人跟人之间沟通还特别费力,你要求你的员工都是 Prompt 专家,所以 Prompt 这种界面,我们称为 LUI。有人说会彻底否定掉 GUI 这个观点是不对的。大模型通过 Agent 框架会把你企业原来的 API 和常见的鼠标键盘界面连在一起,这种操作对员工可能是最简便的。


我们也在探索一个 CUI,就一个聊天室的数字人的界面,但从现在来看,它作为一个补充是可以的,因为你什么事都要跟通过语言方式来表达,在企业内部并不是最高效率的。


Agent 框架解决“工具增强”问题


大模型的能力实际上是很弱的,很多事都干不了。比如你让它订餐、订票、查航班,它必须有很多工具向它开放,大模型才有了手跟脚,那除了外部的工具之后,在企业内部我们有很多系统,你能不开放吗?假设啥都不让我碰,什么数据库我都没有账号,那我只能给你夸夸其谈,但是如果我都能操纵这些东西,那我作为一个专业员工,我就能发挥作用。所以如果没有 Agent 框架,光有个大模型,在企业内部实际上啥活也干不了。


关键问题五:业务融合。


企业大模型不是顾问,他不能只说不练,也不能取代原来的IT 系统,它要和你原来的业务系统紧密耦合在一起,协同工作,所以这就需要一套工作流。


我举一个例子,比如你做了一个 AI 面试,这只是一个单点功能,面试完了之后我怎么把面试结果发到公司 HR 系统里?我怎么通知 HR 这个人录用或者不录用。实际上这些功能都不是大模型在做,都需要一套工作流系统,把大模型 Agent 框架的能力跟企业原来的业务系统紧密的连在一起,实际上需要一个更大的 Agent 框架。





文章来自微信公众号“特工宇宙”,作者 特工少女



















AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目,该项目可以帮你实现“线上线下的数字人销售员”,

“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。

项目地址:https://github.com/xszyou/Fay

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

4
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

6
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales