AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地的那种

3718点击 2024-09-22 10:11

两个AI现场攻防，翻车了人类就在旁边“蛐蛐”。

现在的AI比赛真是越来越因吹斯汀了。

这不，一个拿着“花开富贵”大姨人设的Agent直接甩了个链接，对面的AI客服就开始大段大段冗长回复，几个回合都是如此。

围观人类一点儿都不留情面，马上锐评：

我都看不下去这么长的回复，不擅长网购的“阿姨”能有这样的耐心？可能看不到一半就走了。

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地的那种

遇到妙语连珠的，人类也纷纷爆灯。

还是这个“阿姨”人设的Agent，她打了个错别字，问AI“九空”是什么意思。

对方AI客服立马发现它想说的其实是“九腔”，还给出了正确的解释。

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地的那种

在云栖大会现场，我们围观了这样一场精彩有趣的AI比赛。

比赛规则是让8家企业在一周内构建智能客服，不仅要现场展示效果和技术方案，还要接受各种人设Agent的情景考验。都是难以应对的那种，要么是不会网购且爱打错别字的阿姨，要么是正在气头上的都市丽人。

结果就上演了刚刚那精彩一幕。

更有意思的是，还有选手找公司财务搞定了这一项目。

要知道，他的对手都是业内颇有来头的企业，不乏已经上市的那种。

所以，这到底是个啥比赛啊？

1周搞定“说人话”AI客服

如上提到的比赛，是业界首个企业级AI应用开发挑战赛：百炼杯“智能好客服”PK赛。

为啥能称得上企业级？

不仅参赛选手都是企业，而且比赛重要的参考维度是能否实际落地。

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地的那种

比赛为选手提供百炼开发平台，可使用通义千问系列模型作为底层模型，平台提供Prompt优化工具、RAG、Agent构建等能力，支持低代码、高代码等不同需求开发。

对参赛作品的要求很简洁，就是打造一个满足现在用户需求的智能客服。能理解用户问题、结合上下文给出解决办法，并且有情商、说人话、能面对各种复杂情景。

而且上手门槛很低。

比如参赛选手云蝠智能，他们的主打业务是电话客服，在文本客服方面的积累不多。这次参赛，他们压根没让工程师参与，而是找公司财务完成了整个业务流程的交付。

从Qwen Max的学习引擎到数据规范、再到提示词调优，我就手把手教了他20分钟。

之所以这样做，是因为云蝠智能认为智能客服产品的最终用户很多都是小型或中小型企业，他们对于无代码、低代码开发的需求很高。他们这么做也是进一步验证，如今的大模型平台已经可以提供零门槛的智能客服构建流程。

另一位参赛选手合力亿捷也提到，职场新人通过1-2天的学习，就能在百炼平台上自己开发Agent。

比如打造一个电商客服，具体技术方案如下：

用户输入问题后，通义千问会先进行意图理解和分类，然后系统将提取关键数据并调用API，再利用RAG技术进行知识检索，最后把经过封装的Prompt提交给通义千问大模型，最后生成答案给客户。

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地的那种

根据比赛数据的多场景特性，拆解了应答服务流程。按照场景特征将意图与知识细分为8大类和若干小类。

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地的那种

合力亿捷介绍，开发过程中也遇到了一些问题。一开始完全依赖百炼平台的输出能力进行意图分类，但是在上下文意图不连贯的时候，就会出现分类和输出不稳定的情况。为此选手对提示词进行优化，强调关键特征和要求。

经过三次迭代后，回复准确率从最初的80%提升到了96%。

要知道，这解决了目前智能客服行业面临的很多挑战。

智能客服作为一个普及度非常高的AI应用，大众满意度却不尽如人意。大家都调侃，AI客服的作用就是为了“转人工”。

这一方面是因为传统AI客服的底层技术不够先进，导致回复比较机械化，不能满足人类真正的服务需求，也缺乏情感价值。

参赛选手亚信科技解释，用户对于智能客服的期待是“像真人交谈一样自然”。这背后需要智能客服可以理解用户意图、懂得结合上下文语境、提供个性化的建议。

随着大模型趋势到来，底层技术瓶颈得到进一步改善。

但是企业用上大模型开发智能客服，还存在诸多门槛。

合力亿捷提到，通用模型需要进一步微调才能满足个性化需求。但实际情况中，往往是懂开发的人不懂业务，懂业务的人不懂开发。

而且本身智能客服给大模型提出的要求也很高。需要精准理解用户意图、强大的上下文能力、可以调用工具等。模型生成的内容也要与时俱进，数据库更新不及时也会导致理解和识别准确率降低。

这意味着企业自己做模型开发的门槛和成本都很高。加之智能客服领域本身竞争激烈、收益比较低，企业面临的智能化升级压力很大。

不过随着大模型开发平台不断升级完善，云厂商们为企业们提供了更便捷的工具。

这次PK赛中，选手们就是完全利用百炼平台进行开发。

其中一些功能都给选手留下了深刻印象。比如亚信科技和合力亿捷都提到了工作流应用。它无需通过构建智能体实现工作流，能让应用调试、修改Prompt等都变得更方便，而且执行效率稳定，性能可靠。

本次比赛的主题智能客服，只是百炼平台典型应用场景之一。

阿里云披露，今年5-7月，百炼服务客户数量快速从9万增长至23万，涨幅超150%。

AI应用开发，拖拉拽即可

去年10月，阿里云发布了百炼大模型平台，主要功能就是让开发者通过简单的拖拉拽，在5分钟开发一款大模型应用，几小时炼出一个专属模型。

今年5月，百炼升级为2.0版本，成为阿里云承载云+AI能力的重要平台，提供一站式、全托管的大模型定制与应用服务。

它可分为计算层、模型层和应用层。

底层计算依托于强大阿里云基础设施。

刚刚结束的云栖大会上，阿里云CTO周靖人宣布，阿里云全面投入升级AI大基建，AI驱动的全系产品家族完成升级。包括磐久AI服务器、HPN7.0高性能网络架构等，都为AI训练、推理、部署和应用更高效而来。

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地的那种

模型层提供通义系列、行业大模型以及丰富第三方模型（如Llama、百川等）。

支持多模态模型服务，提供灵活高效易用的模型API与SDK。提供文本生成、图片生成、视觉理解、视频生成、语音识别以及语音合成能力。

最新进展中，通义方面发布了最强开源模型Qwen2.5系列，同时上架语言、音频、视觉等100多款全模态模型。

应用层方面，百炼提供开放的Agent构建框架，支持灵活的应用编排能力。构建了丰富的模型应用生态，比如智能座舱、智能客服、智能零售、AI数字人等。

主要支持的开发范式有三种：

提示词优化：提示词扩写、案例优化、反馈优化。
检索增强生成（RAG）：企业级知识管理、灵活优化各组件效果。
模型微调：多模态模型微调、多类型微调方式。

并且提供多款开箱即用的AI原生应用。

比如智能客服大模型应用晓蜜、多模态内容创作工具全妙、AI原生智能数据分析产品析言GBI等。

而且基于阿里云深厚的云计算基础，百炼可以提供更加高效、稳定、极具性价比的大模型服务。

没有AI的应用没有竞争力

最后，回到这场PK赛本身，为啥阿里云想要办一场智能客服挑战赛？

其实，早在大模型掀起技术风暴之前，AI客服就是NLP相关研究的应用重点：

一方面，客服是信息时代每个企业、每个人都会接触到、有需求的场景。另一方面，这种大量、高重复度场景，恰恰是AI技术能最快见效的应用领域。

而当大模型完全改变了人机交互的模式和对话生成的质量，AI客服也自然而然迎来质变时刻，成为大模型应用落地最好的试验田之一。

IDC报告《中国智能客服市场份额， 2023 ：新旧交替，增长可期》中显示，2023年智能客服解决方案整体市场规模达到了30.8亿人民币，较2022年增长了近36.9%，足见其发展潜力。

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地的那种

但在“骇客松”这种以赛代练文化盛行的科技领域，阿里云百炼杯之前，却未见真正定位“企业级”、强调“落地可用”的AI应用开发挑战赛。

其中挑战亦不难理解：

要拉来这么多具有代表性的企业过过手见见技术真章，主办方本身需要具备行业号召力，并且能够提供客观、可靠的基础平台。

阿里云作为国内云厂商中的头把交椅，本身过硬的云计算基础能力和行业影响力自不必说。

现在，依托百炼平台，阿里云进一步提供了大模型企业级应用开发的一站式服务能力：以模型为中心，依据大模型真实业务落地需要，提供模型、应用、数据、运营四大核心工具链，帮助企业实现“小步快跑的业务验证”和“规模业务的迭代优化”。

从本次挑战赛中也可以看出，大量难以处理的情绪化、复杂上下文、逻辑推导、业务引导、体系计算等问题，企业都能通过结合模型和百炼平台的能力解决。

对于参赛企业而言，参与这样的比赛，能积累大模型应用的落地经验，验证自身对于业务场景与大模型结合的理解。

而对于阿里云来说，在为参赛企业提供支持的同时，也进一步加深了对实际业务场景的了解，为通过技术发展驱动大模型应用落地积攒实践经历。

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地的那种

事实上，从“智能客服”一隅，亦可再次窥见大模型时代各行各业面临的一个新机遇和新挑战：

随着技术变革程度的不断加深，在未来，没有AI的应用就没有竞争力。

而这一课题所涉及的，不仅是应用层面的创意和技术创新，更是基础设施的迭代升级。

云时代里走在前列的阿里云，这一次又踏在了潮头。

文章来自于微信公众号“量子位”，作者“明敏”

AI“大姨”现场刁难智能客服！直击一群AI打PK赛，真能落地的那种

关键词: AI , Agent , 智能体 , 人工智能

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

数字人

【开源免费】Fay开源数字人框架是一个AI数字人项目，该项目可以帮你实现“线上线下的数字人销售员”，
“一个人机交互的数字人助理”或者是一个一个可以自主决策、主动联系管理员的智能体数字人。
项目地址：https://github.com/xszyou/Fay

AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。
项目地址：https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file
本地安装：https://www.deepbi.com/
【开源免费】airda(Air Data Agent)是面向数据分析的AI智能体，能够理解数据开发和数据分析需求、根据用户需要让数据可视化。
项目地址：https://github.com/hitsz-ids/airda

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

RAG

【开源免费】graphrag是微软推出的RAG项目，与传统的通过 RAG 方法使用向量相似性作为搜索技术不同，GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址：https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG，Agent，模型管理等一站式AI开发的工具平台，并且项目方一直持续维护。其中在任务编排方面相对领先对手，可以帮助研发实现像字节扣子那样的功能。
项目地址：https://github.com/langgenius/dify

【开源免费】RAGFlow是和Dify类似的开源项目，该项目在大文件解析方面做的更出色，拓展编排方面相对弱一些。
项目地址：https://github.com/infiniflow/ragflow/tree/main

【开源免费】phidata是一个可以实现将数据转化成向量存储，并通过AI实现RAG功能的项目
项目地址：https://github.com/phidatahq/phidata

【开源免费】TaskingAI 是一个提供RAG，Agent，大模型管理等AI项目开发的工具平台，比LangChain更强大的中间件AI平台工具。
项目地址：https://github.com/TaskingAI/TaskingAI

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner

prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法，编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词，进而高质量的帮助用户通过AI解决问题。
项目地址：https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用：https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0

无人直播

【开源免费】VideoChat是一个开源数字人实时对话，该项目支持支持语音输入和实时对话，数字人形象可自定义等功能，首次对话延迟低至3s。
项目地址：https://github.com/Henry-23/VideoChat
在线体验：https://www.modelscope.cn/studios/AI-ModelScope/video_chat

【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案，生成数字人形象进行直播，并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址：https://github.com/PeterH0323/Streamer-Sales