在AIGC时代,云计算是不可或缺的算力参与者。如何为企业大模型应用护航,帮助他们以更强的性能、更低的成本完成部署,是每个底层能力厂商都在思索的难题。
本次中国AIGC产业峰会上,亚马逊云科技大中华区产品部技术总监王晓野分享了企业如何抓住时代的机遇,以及应对生成式AI的关键步骤。
为了完整体现王晓野的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。
中国AIGC产业峰会是由量子位主办的行业峰会,20位产业代表与会讨论。线下参会观众近千人,线上直播观众300万,获得了主流媒体的广泛关注与报道。
以下为王晓野演讲全文:
大家好,我的分享题目是《共赢生成式AI时代》,这里用的是“赢”,并不是迎接的“迎”,想传达的是:
我们今天离生成式AI这个时代已经开始了,并不是未来将发生的事情。
根据麦肯锡的调研结果,全球生成式AI将带来2.6-4.4万亿美元的市场商机。对超过五千人的企业进行调查,结果显示,80%的被调研CEO认为生成式AI将在18个月之内颠覆所有产业,同时也有 30%的企业已经在今天部署生成式AI相关的投资。
所以说在各个行业,生成式AI是几乎所有人都认为会发生的,或者说正在发生的一件大事。
亚马逊云科技从电商起家,到云计算、云助手,一直在以技术和AI颠覆原有产业并不断创新。
随着生成式AI应用的发展,这里有八个场景介绍亚马逊云科技如何应用生成AI。
首先,Alexa语音助手背后的模型正在全面更新,将采用生成式AI新模式。
其次,在亚马逊云科技整个产品列表中,我们通过生成式AI为产品列表添加更有用的信息。
第三,在广告领域,亚马逊云科技为电商卖家提供了众多产品上架和展示工具,其中包括生成式AI一键式生成产品和营销素材的功能。
第四,亚马逊云科技在无人商铺中使用掌纹识别技术来识别顾客身份,该技术需要大量数据进行模型训练,而亚马逊通过生成数据集的方式来帮助提高掌纹识别的准确性。
第五,针对电商评论,我们的电商平台上有非常多的评论。如何通过这些评论快速了解一款产品是否符合自己的购买期望呢?我们可以通过生成式 AI 快速进行内容总结。
第六,亚马逊云科技也有视频平台,针对一些比赛我们通过生成式AI进行整个比赛的解说,增强用户体验。
第七无人商店人流预测上面,我们进行快速验证,包括亚马逊云科技在药店场景下帮助店员使用生成式AI快速的解释某一款药针对某一种类型是否更加适合。
最后一个也是最近的用例,我们在电商平台上推出了导购助手Shopping Assistant。当你明确想买iPhone17 Pro时,可能会直接使用检索功能;而当你的购买目的不那么明确,或者只是想简单地进行户外郊游时,你可能希望 AI 助手能够推荐适合的产品,比如除了帐篷和烧烤炉,还需要什么东西。
AI 助手正在帮助电商颠覆传统的购物体验。
想通过这些给大家展示的是不仅仅是调研,亚马逊云科技作为全球领先的科技公司已经在全面的拥抱生成式AI,每个地方都在进行尝试。
亚马逊云科技一直致力于通过科技为企业赋能,我们在生成式AI领域的定位是为云计算赋能产业提供未来的巨大机会。
通过三层能力,我们为客户提供抓住生成式AI浪潮的核心能力:
最下层是加速层,专注于模型训练到推理的加速,提供更好的框架,帮助模型优化的人员实现加速。
中间层是应用构建层,我们不直接投入模型或AI本身的能力,而是提供核心产品 Amazon Bedrock,让客户可以直接利用AI的能力构建自己的专属应用。除了模型能力外,还提供Agent和知识库等功能。
最上面一层是应用层,我们知道有些企业希望直接使用开箱即用的应用,因此我们会挑选亚马逊云科技最擅长的应用场景,包括Amazon Q和企业知识库,提供智能助力。此外,我们还提供Amazon Quicksight,这是一款生成式BI产品;以及Amazon Connect,它可以帮助训练客服人员快速总结客户
电话沟通的需求;还有Amazon CodeWhisperer,它通过智能生成代码助力的形式,提供开箱即用的应用。
亚马逊云科技希望通过这三层架构,为客户提供抓住生成式AI浪潮的核心能力。
亚马逊云科技在与客户沟通的过程中,帮助企业总结了抓住生成式AI关键的几个步骤:
选对场景:选择适合的应用场景,以充分发挥生成式AI的优势。
选对工具或提供工具的合作伙伴:选择合适的工具或与提供工具的合作伙伴合作,以支持生成式AI的应用。
数据的重要性:在生成式AI时代,如果所有人能够掌握的模型能力相同,那么数据将成为每个企业最核心的竞争力和差异化所在。因此,企业对数据的重视程度应该与以往有所不同。
人才培养和监管治理:在落地过程中,培养相关人才以及对生成式AI进行监管和治理至关重要。
对于第一点,如何找到合适的应用场景?我们根据客户经验,总结出当前生成式AI非常适合的六大场景。
首先,是和服务客户有关的场景。在中国企业大量出海的背景下,许多业务都是全球化的,因此在多国文化和语言之间建立桥梁,生成式AI可以发挥非常重要的作用。
其次,是商业决策和洞察场景。
再次,是智能服务和营销素材的生成场景。
第四,是整体运营效率方面,在办公工具和软件自动化方面,大模型生成式 AI 为我们提供了前所未有的能力。
最后两个专业知识的支持,以及刚才提到的产品侧,颠覆我们产品前所未有的体验,这都是正在发生的生成式AI比较适合应用的六大领域。
许多人都有这样的疑问:我应该在什么时候进行微调,什么时候使用RAG,以及什么时候进行持续预训练?
今天的大模型存在几个无法回避的问题:首先,实时性支持在模型中无法实现;其次,用户隐私数据也不可能在模型中循环使用;最后,模型仍然会产生幻觉,很多回答正确的情况只是一种恰到好处的巧合。
如何真正完全避免幻觉,只有一个方式,就是用你绝对确定的答案去引导它,这些都是在中间做RAG应该做的事情。
什么时候进行微调呢?如果对角色的理解存在特殊的引导性,或者对格式的理解有特定需求,那么就可以进行微调。我们希望模型具备这样的能力。
关于持续预训练,对于产业术语和行业术语,我们建议在最原始的预训练阶段,将整个数据集中加入相应的资料。
我们认为,企业最重要的是构建自己的数据飞轮,实现从应用模型到数据的真正打通。应用产生的数据越来越多,有助于企业更好地定制自己的模型,从而充分发挥模型的作用。
亚马逊云科技提供端到端全栈的数据能力,希望客户关注我们用数据做什么,而不是我们用什么做数据这件事情。
首先回顾去年,大家对AIGC的概念还停留在文生图和文生视频,而如今提到的多模态输入、文本理解或者全模态、多模态输入输出等概念尚未普及。
在去年,最常见的应用场景包括:创意类内容生成,如文生图,以及企业内部的内容设计,如游戏公司的素材设计;ToB的营销生成,如为品牌商提供营销素材;将生成式AI能力嵌入设计类软件,如Adobe将其嵌入工具中。
而中间这一类APP则仅局限于一些较小且有趣的场景,如妙鸭相机提供一些个性化的照片和头像等。至于聊天机器人,虽然在各个领域都有应用,但主要局限于企业内部知识库、售后客服、游戏NPC等相对简单的场景。
我们总结主要原因在于模型能力和成本这两个核心因素,只有真正了解产品目标客群以及大模型相应能力的产品经理,才能找到所谓的产品市场契合点(PMF),并在有限的场景中加以应用。
在这一阶段,我们也有一些优秀的案例。例如,易点天下是我们服务的一家广告行业的公司,他们抓住了这一波机遇,推出了KreadoAI营销素材生成平台。该平台在营销素材电商领域实现了50%的增效。
这一波如果重新定义的话,我想借着Amazon Bedrock中间平台层这款产品的更新跟大家做一个解读,为什么现在跟刚才我提的文生图、文生文那一波又不一样。
最核心首先介绍一下Amazon Bedrock作为工具,我们会提供不同的模型能力,同时以API的方式用云最安全的方式,隐私保护的机制来去保障用户使用到最好的一些大模型。不会有一个模型统治全天下,我们会在相对比较好的一些模型里,为大家提供模型的API的调用,事实也证明,我们现在看到
·模型能力是此消彼涨,大家互相竞争的状态,与Anthropic的 Claude也是在近期吸引到了大家的眼球。
亚马逊云科技跟Anthropic是战略投资关系,Anthropic在加速层会尝试使用亚马逊云科技的芯片,以及类似模型微调的功能也会优先在亚马逊云科技平台上提供。
首先是成本。今天调用一个大模型的成本,通过模型提供商以及云厂商的优化,能做到什么程度?
Haiku是Claude 3系列最小的模型,速度非常快,在价格上也有一个质的飞跃,低到已经可以挑战传统机翻如Google translate的成本。
在这一基础上,语言翻译的场景将得到拓展。过去,大模型客户主要尝试批量翻译,而现在,许多人开始尝试实时翻译。这是因为新的方法已经达到了SOTA,并且比原有的方法更经济实惠。
此外,Claude模型的特点在于其出色的语义理解能力和对自身角色个性的识别能力。在今天的角色扮演场景中,它被置于首位。情感陪伴机器人、AI男女友等提供情绪价值的APP大量涌现。首先,这些APP的拟人化交互效果出色。更重要的是,收费方面,许多公司已找到平衡点,可通过用户付费实
现盈利。
多模态已经是未来的一个趋势,Claude 3系列三个模型都是朝着多模态输入的方向发展。同时对语义的理解和对图和文字背后的意义的理解方面都有很好的基础。
多模态解锁了哪些不同的能力呢?例如,通过物体检测来判断是否有老人跌倒或婴儿从婴儿床里掉出来。同时,这种多模态能力也为新兴的短剧提供了支持。在短剧里,如何在适当的情节和最关键的地方进行识别,然后插入广告,直接实现盈利回报。
基于这个新的模型能力,游戏公司沐瞳科技正在使用新兴的SOTA多模态大模型替代传统的作战类游戏内容审核。这是因为在游戏过程中可能会出现一些脏话、辱骂和不正当言论。
这种变化悄然发生,表面上看起来没有变化,但背后的实现方式已经发生了改变。
最后,我们来谈谈人才以及如何在实践中用好AI并进行负责任的监管与治理。这一点非常重要。如果企业在推出产品时稍有疏忽,可能会对其声誉造成影响,甚至可能损害之前与客户建立的信任关系。在人才和相关方面,亚马逊云科技投入了大量资源,致力于帮助客户共同打造和谐的环境,推动负
责任的AI应用。
每年,亚马逊云科技的创始人或CEO都会写一封致股东的信,信中会解释公司在过去一年中取得的成绩以及未来的投资方向。在今年的信中,“Primitives”这个词被使用了41次。
如果用一个比喻来解释这个词,它可以被直译为原子原件原力量。以机械设备为例,杠杆和滑轮就是原子的力量。在电商领域,支付能力和物流能力就是原子力量,它们帮助第三方买家接入亚马逊平台。
同样,对于云计算,从诞生的第一天起,它就是为企业提供原子能力,帮助他们构建大型分布式系统,实现更好的数据治理。在生成式AI的时代,我们正在构建或持续投入的下一个领域就是关于生成式AI的三层原子能力。我们希望与客户一起,共同赢得生成式AI的时代。
今天我们宣布,Meta Llama3基础模型可以通过Amazon SageMaker JumpStart进行部署和推理运行。
Llama3是预训练和精调的生成式文本模型,目前有8B和70B两种参数尺寸,上下文长度为8K,适用于推理、代码生成和指令执行等多种使用场景。
它采用了仅解码器的Transformer架构和新的tokenizer,提供了128K大小的改进模型性能。此外,Meta改进了后训练程序,大幅降低了错误拒绝率,提高了对齐性,增加了模型响应的多样性。
通过Amazon SageMaker的功能(如Amazon SageMaker Pipelines、SageMaker Debugger或容器日志),您可以获得Llama3性能和MLOps控制的组合优势。该模型将在您的VPC控制下的亚马逊云科技安全环境中部署,有助于提供数据安全性。
【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装:https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址:https://github.com/hitsz-ids/airda
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales