ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
车载AI Agent产品开发:如何通过大模型实现“座舱代言人”?
3292点击    2024-08-27 16:41

佐思汽研发布《2024年车载AI Agent产品开发与商业化研究报告》。


根据OPEN AI对AI的分类方式(共5个级别),AI Agent位于AI发展路径的第3个级别:


OPEN AI对AI的分类方式



来源:OPEN AI


而2023年大热的大模型受限于交互方式与工具使用能力等,最多也只能达到L2推理者的级别。对比下来,通过构建车载Agent来发展汽车AI体系是一个较为合适的目标:Agent通过主动智能特性与多类工具/大模型调用,补全大模型在场景应用中的痛点,进一步提升座舱智能化水平。


Agent是情感座舱代言人


“情感座舱”的口号已经喊了很多年,但是真正实现还是从大模型上车开始,在触发特定条件下,语音助手通过预置的情感语料库与用户聊天,但在真实聊天场景下无法适应人类的对话逻辑;而车载Agent上车后,通过集成多个大模型底座,对环境的识别更为准确,更多数量的工具库接口则进一步加强了其泛化能力,能够应付多元化场景下的聊天问答,真正实现“座舱代言人”的温暖陪伴。


部分Agent在不同场景下的情感关怀示例



整理:佐思汽研


主流的情感交互场景的设计重点在情绪识别、用户记忆、行为编排等领域,部分主机厂、Tier1也推出了提升Agent情感价值的技术或产品:


部分主机厂、Tier1的Agent情感技术/产品



整理:佐思汽研


以小爱同学为例,其“情感对话系统”的构建包含三个步骤:


小爱同学“情感对话系统”构建步骤



整理:佐思汽研


混合策略疏导模型包含情感状态增强编码器、混合策略学习模块、多因素感知解码器三个重要组件



来源:小米


马耳他大学数字游戏研究所提出了情感框架(Affectively Framework),设立情感模型,在训练过程中采用行为奖励和情感奖励机制,帮助 Agent 更好地理解人类的情感,并能够与人类进行更自然的交互。


基于情感奖励的情感框架

来源:马耳他大学数字游戏研究所


提升用户体验需要解决的痛点


想象一下,智能座舱不仅能够听懂并执行车主下达的指令,还能预测车主的需求,就像一个贴心的私人助理,这是不是会让车主更加期待?相比于买了传统汽车后每个功能还要自己摸索一遍,谁不想要一个“动动嘴”就能帮你打理所有座舱功能的座舱“代言人”呢?Agent主打一个省时省事。


理想同学对车主景点推荐需求的响应(被动推荐)



来源:理想


虽然现阶段已上车的Agent大部分还停留在助手、陪伴以及具体场景功能列举层面,但相比于大模型,Agent拥有更大潜力,具备可激发的自主性和突出的工具使用能力,更加贴合“主动智能”标签,甚至能够弥补大模型在实际应用中的限制。


大模型与Agent的部分区别


整理:佐思汽研


然而,要让车载Agent真正做到“主动智能”,满足用户的体验价值,在技术开发上还有很长的路要走。Agent需要在主动感知、数据处理、状态识别等环节做得更加精确,通过准确理解环境,判断车内人员的真实需求,再根据不同环境采取不同的策略。其中,难点之一在于Agent对用户需求的准确判断,相比正常情况下的被动交互,主动意图识别缺少语音指令,而在环境/人员/车辆状态识别的过程中,未必能够通过向量特征匹配得到与当前场景极为相近的描述,预置方案也未必符合车内人员真正的意图。


主动推荐动作的生成示意图


来源:佐思汽研


目前,多数推荐功能仅仅是执行预设的指令,反而限制了Agent的“主动智能”能力,导致在推理环节频繁出现痛点。例如,如果Agent不能准确理解当前的场景,它就可能做出不符合用户预期的推荐,比如在错误的时间推荐音乐或导航等。最终结果就是影响用户体验,导致Agent成为用户眼中的“猜测机器”。


Agent“无效推荐”案例1




Agent“无效推荐”案例2


整理:佐思汽研


此外,Agent在接受语音指令的感知环节同样也有痛点,如佐思汽研非完全统计了部分车主对于使用车载Agent的使用痛点案例,频率较高的痛点主要为唤醒失败、识别错误、误唤醒。


不完全统计下的车载Agent使用痛点分析



整理:佐思汽研


在120个痛点案例中,唤醒失败、识别错误、误唤醒的提及频率分别达到19、18、17个,占比分别为16%、15%、14%,其他痛点还包括不支持可见可说、不识别方言、延迟响应、不支持语义澄清、不支持连续指令等,共计89个语音环节的痛点,占本次统计调研的74.2%。


此外,Agent架构/场景设计不合理导致的一系列问题还包括场景触发条件不合理、大模型需要二次唤醒、长/短期记忆失效、根据车主习惯自主做出的推荐动作不符合预期等,分别体现了Agent在场景设置、架构部署、记忆模块、反思模块上的限制。


总结说来,用户痛点较多地集中在感知与推理环节:

  • 感知:“叫不醒”(唤醒失败)、“瞎回答”(误唤醒)、“听不懂”(识别错误)、“啥也不会”(不支持可见可说)、“耳背”(延迟响应)等;

  • 推理:“睁眼瞎”(物体识别错误)、“乱推荐”(自主推荐不符合用户预期)等。


快速响应的多Agent框架


为实现“代言人”在座舱的全面功能,Agent在多元化场景下的服务框架设计极为重要。Agent框架构建方式较为灵活,可以采用最简单的“接收器+执行器”架构,也可以构建更加复杂的多智能体架构,其设计原则很简单:只要在特定场景下能解决用户问题,那就是好的框架设计。作为一个合格的“座舱代言人”,车载Agent除了需要像一个独立思考的个体,自己做决定、解决问题外,还要像人一样,快速、自如地采取人类的行为模式。

蔚来汽车的Nomi就是一个典型的例子。它采用了多智能体架构,在不同的场景下,调用不同的工具,通过多个分工不同的Agent履行特定职责,共同完成理解需求、决策裁决、执行任务、反思迭代的流程。多智能体架构让Nomi不仅能够快速响应,还能像人一样做出更自然的反应,与汽车的其他功能无缝融合,让体验更加流畅。

蔚来Nomi Agent采用多智能体架构



来源:蔚来


相比单Agent系统,多Agent系统更适合执行复杂的指令,就像一个小型社区,每个“Agent”都有自己的任务,但它们又能协作完成更复杂的工作。比如,一个Agent负责理解你的指令,另一个负责决策,还有专门的Agent来执行任务。这种设计让车载AI Agent系统更加灵活,能够处理更多样化的任务。如澳大利亚联邦科学与工业研究组织(CSIRO)提出一种同时采用协调Agent和执行Agent的多Agent系统:


一种多Agent系统框架示例


来源:CSIRO


整个Agent框架分为6个模块,分别为感知交互(Understanding&Interaction)、推理(Reasoning)、工具使用(Tool Use)、多Agent协作(Multi-Agent Collaboration)、反思(Reflection)以及价值对齐(Alignment),囊括了主流的Agent设计模式,包含从主动感知、推理决策、工具调用到生成执行、反思迭代并与人类价值对齐的整个流程。该框架的特点是引入多Agent系统,可由不同的Agent分别担当整个流程中分发/决策/执行的不同角色,充分发挥各个Agent优势,提升任务执行的效率。


此外,在多元化场景下,Agent部署方式和工具调用能力也影响着用户需求是否能被快速、准确的执行。以蔚来Nomi为例:

Nomi Agents分别在端侧、云端两个部分进行部署,端侧与云端分别搭载端侧模型与NomiGPT,端侧模型与SkyOS深度融合,能够及时调用原子能力,进行跨域资源的调度(如数据、车控硬件/软件等),加快响应速度;云端Nomi GPT连接更多云端工具资源接口,进一步加强Nomi Agents工具调用能力。Nomi Agents架构布置在SkyOS中间件层,通过与SkyOS结合,调用原子API、硬件/软件、数据的过程更加自然协调、也更加迅速。


Nomi Agents在SkyOS中的布置



来源:蔚来


《2024年车载AI Agent产品开发与商业化研究报告》目录


页数:234页


01

车载AI Agent介绍

1.1 Agent的定义

1.2 Agent的发展历程

1.3 大模型使用Agent概念重获生机

1.4 大模型、Agent、AIGC区别

1.5 车载AI Agent产品定义

1.6 基于多Agent系统的车载AI Agent:模块设计

1.6 基于多Agent系统的车载AI Agent:组件功能

1.6 基于多Agent系统的车载AI Agent:组件特点(1)

1.6 基于多Agent系统的车载AI Agent:组件特点(2)

1.6 基于多Agent系统的车载AI Agent:组件特点(3)

1.6 基于多Agent系统的车载AI Agent:组件特点(4)

1.6 基于多Agent系统的车载AI Agent:组件特点(5)

1.6 基于多Agent系统的车载AI Agent:组件特点(6)

1.6 基于多Agent系统的车载AI Agent:组件特点(7)

1.6 基于多Agent系统的车载AI Agent:组件特点(8)

1.7 车载AI Agent参考架构(按功能模块与组件)

1.7 车载AI Agent参考架构(按部署层级)

1.8 Agent架构案例(1):蔚来(Nomi)架构原图

1.8 Agent架构案例(1):蔚来(Nomi)部署原图

1.8 Agent架构案例(1):蔚来(Nomi)模块设计

1.8 Agent架构案例(1):蔚来(Nomi)模块设计——多模态感知

1.8 Agent架构案例(1):蔚来(Nomi)模块设计——指令分发

1.8 Agent架构案例(1):蔚来(Nomi)模块设计——场景自定义创建流程

1.8 Agent架构案例(1):蔚来(Nomi)亮点(1)

1.8 Agent架构案例(1):蔚来(Nomi)亮点(2)

1.8 Agent架构案例(1):蔚来(Nomi)亮点(3)

1.8 Agent架构案例(2):理想(理想同学)架构原图

1.8 Agent架构案例(2):理想(理想同学)模块设计

1.8 Agent架构案例(2):理想(理想同学)配套设施—数据/训练平台

1.8 Agent架构案例(2):理想(理想同学)配套设施--推理引擎

1.8 Agent架构案例(3):小米(小爱同学)架构原图

1.8 Agent架构案例(3):小米(小爱同学)模块设计

1.8 Agent架构案例(4):极氪Agent模块设计

1.8 Agent架构案例(5):哪吒Agent架构部署原图

1.8 Agent架构案例(5):哪吒Agent模块设计

1.8 Agent架构案例(6):北汽Agent架构部署原图

1.8 Agent架构案例(6):北汽Agent模块设计

1.8 Agent架构案例(7):华为(Pangu Agent)模块设计

1.8 Agent架构案例(8):思必驰Agent架构部署原图

1.8 Agent架构案例(8):思必驰Agent模块设计

1.8 Agent架构案例(9):联想Agent架构部署原图

1.8 Agent架构案例(10):智谱Agent架构部署原图

1.8 Agent架构案例(10):智谱Agent模块设计

1.8 Agent架构案例(11):梧桐车联Agent架构部署原图

1.8 Agent架构案例(11):梧桐车联Agent模块设计

1.9 Agent架构设计流程:框架选型

1.9 Agent架构设计流程:工具调用方式

1.10 车载 AI Agent架构对比分析


02

车载AI Agent产品开发关键问题——用户痛点、技术难点

2.1 车载Agent场景分类:不同场景下的典型指令

2.1 车载Agent场景分类:案例(1)蔚来

2.1 车载Agent场景分类:案例(2)理想

2.1 车载Agent场景分类:案例(3)小米

2.2 车载Agent场景设计案例(1)问答场景

2.2 车载Agent场景设计案例(2)问答场景

2.2 车载Agent场景设计案例(3)出行场景

2.2 车载Agent场景设计案例(4)聊天场景

2.2 车载Agent场景设计案例(5)聊天场景

2.2 车载Agent场景设计案例(6)聊天场景

2.2 车载Agent场景设计案例(7)问答/办公场景

2.3 Agent不同使用场景下的用户痛点:总结

2.4 用户痛点分析(1):车控场景

2.4 用户痛点分析(2):出行场景

2.4 用户痛点分析(3):问答场景

2.4 用户痛点分析(4):娱乐场景

2.5 Agent技术难点

2.6 Agent技术案例:意图识别(案例1)

2.6 Agent技术案例:意图识别(案例2)

2.6 Agent技术案例:意图识别(案例3)

2.6 Agent技术案例:意图识别(案例4)

2.6 Agent技术案例:推理加速(案例1)

2.6 Agent技术案例:推理加速(案例2)

2.6 Agent技术案例:推理加速(案例3)

2.6 Agent技术案例:流式语音(案例1)

2.6 Agent技术案例:流式语音(案例2)

2.6 Agent技术案例:流式语音(案例3)

2.6 Agent技术案例:情感交互(案例1)

2.6 Agent技术案例:情感交互(案例2)

2.6 Agent技术案例:情感交互(案例3)

2.7 Agent技术趋势(1):实现主动智能的两个关键

2.7 Agent技术趋势(2):

2.7 Agent技术趋势(3):情感拟人的两种主流设计方式


03

OEM AI Agent投资、开发、运营研究

3.1 车载 AI Agent开发配套对比分析

3.2 各主机厂对车载 AI Agent的规划

3.3 车载 AI Agent的三种开发模式对比分析:优势/劣势

3.3 车载 AI Agent的三种开发模式对比分析:费用

3.4 主机厂AI Agent团队岗位设置

3.4 主机厂AI Agent团队岗位设置案例(1):奇瑞AI Agent团队招聘岗位

3.4 主机厂AI Agent团队岗位设置案例(2):吉利AI Agent团队招聘岗位

3.4 主机厂AI Agent团队岗位设置案例(3):理想AI Agent团队招聘岗位

3.4 主机厂AI Agent团队岗位设置案例(4):蔚来AI Agent团队招聘岗位

3.4 主机厂AI Agent团队岗位设置案例(5):小米AI Agent团队招聘岗位

3.5 AI Agent开发周期与运营方式

3.6 AI Agent商业分析:主机厂盈利模式

3.6 AI Agent商业分析:供应商盈利模式

3.6 AI Agent商业分析:供应商收费标准

3.7 车载AI Agent商业开发趋势(1)

3.7 车载AI Agent商业开发趋势(2)


04

车载AI Agent供应商及供应关系研究

4.1 座舱基座大模型:模型配置一览

4.1 座舱基座大模型:选择参考因素

4.2 座舱基座大模型供应商(1)

4.2 座舱基座大模型供应商(2)

4.2 座舱基座大模型供应商(3)

4.2 座舱基座大模型供应商(4)

4.2 座舱基座大模型供应商(5)

4.2 座舱基座大模型供应商(6)

4.2 座舱基座大模型供应商(7)

4.2 座舱基座大模型供应商(8)

4.2 座舱基座大模型供应商(9)

4.2 座舱基座大模型供应商(10)

4.3 向量数据库供应商产业链

4.4 向量数据库产品对比:国内向量数据库

4.4 向量数据库产品对比:国外向量数据库

4.5 向量数据库供应商案例(1)

4.5 向量数据库供应商案例(2)

4.5 向量数据库供应商案例(3)

4.5 向量数据库供应商案例(4)

4.5 向量数据库供应商案例(5)

4.5 向量数据库供应商案例(6)

4.5 向量数据库供应商案例(7)

4.5 向量数据库供应商案例(8)

4.6 语音ASR模块供应商对比分析

4.7 ASR模块供应商分析案例(1)

4.7 ASR模块供应商分析案例(2)

4.7 ASR模块供应商分析案例(3)

4.7 ASR模块供应商分析案例(4)

4.7 ASR模块供应商分析案例(5)

4.7 ASR模块供应商分析案例(6)

4.7 ASR模块供应商分析案例(7)

4.7 ASR模块供应商分析案例(8)

4.7 ASR模块供应商分析案例(9)

4.8 座舱数据采集传感器:主流配置/数据采集相关规定

4.9 传感器数据处理案例(1)

4.9 传感器数据处理案例(2)

4.9 传感器数据处理案例(3)

4.9 传感器数据处理案例(4)


文章来源于“ 佐思汽车研究


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

2
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

3
无人直播

【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。

项目地址:https://github.com/Henry-23/VideoChat

在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat


【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。

项目地址:https://github.com/PeterH0323/Streamer-Sales