意图识别及其在智能设计中的应用
意图识别指的是理解他人或智能体的意图,是人类进行有效沟通、融入社会的重要能力。人类经过几百万年的进化,具备了识别外来刺激意图的能力。现代研究表明,婴儿在14个月时已经能够识别他人的意图。研究还发现,意图识别能力的缺陷与自闭症等个体沟通和社会行为异常显著相关。随着AI技术的快速发展,人类与智能体的交往越来越多,意图识别对人类和智能体的有效沟通、和谐共处尤为重要。因此,意图识别逐渐成为学术研究的热点。据检索,1990年关于意图识别的研究论文有77篇;2020年,这一数字增加到2251篇;到2023年,此领域发表的研究论文已达2376篇。
本文将与读者一起探讨意图识别的基本概念,并介绍其在智能设计中的应用。
意图可以分为社会性(如会议等)和私人性(如个人开车等);意图也可以分为长期的(如旅游计划)和短期的(如汽车刹车)。由于社会性和长期意图涉及的因素较多,目前的研究主要集中在特定环境下,尤其是人机交互中的短期操作意图识别。
这种短期操作意图的识别有两个重要特点:即时性和直接性。即时性指该意图从产生、计划到执行的时间间隔非常短。直接性指该意图与当前操作人员执行的任务密切相关。
为了识别复杂人机系统中的操作意图,如飞行员驾驶飞机、列车司机驾驶火车等,我们构建了SUT(S,situation ;U,user ;T,task)意图识别模型。我们假设在一个人机系统中, 整个系统的操作意图有一个总集。通过任务和情境状态的分析,操作意图集合逐步聚集。最后,通过操作者意图识别,可以确定特定任务和情境中的操作意图。例如,飞机的每个操作, 如按下启动按键,都对应一个操作意图。将所有操作意图汇集起来,就有一个总的操作意图集。当飞机处于起飞阶段时,即任务(T)为起飞,总的操作意图可以转换为起飞阶段的操作意图集合。如果飞机左侧刮来侧风,即情境(S)发生变化,起飞阶段的操作意图集合相应转换为应对侧风的操作意图集合。在此基础上,通过飞行员(U)操作意图的识别,可以确定起飞阶段、在有侧风情况下的具体操作意图。
在复杂人机系统中,获取操作意图总集和特定任务情境的意图子集是复杂的系统工作, 需要专门的任务和情境分析,包括工作领域分析、操作策略分析、操作任务分析、系统功能分配分析,以及意图与认知信息的分析等。此外,这些意图集之间的转换需要自动收集和处理各种系统参数。
在工程实践中,SUT模型已应用于复杂人机系统的操作意图识别,并收到良好效果。例如, 在传统飞机显示设计中,飞行员需要通过电子显示屏查找菜单和选项进行操作。有了意图识别机制,电子显示屏可自动呈现飞行员需要的操作选项,省去查找工作,实现“按需显示-操作”的新型信息显示模式。
SUT意图识别模型提供了解析人类在复杂系统中众多意图的方法。通过分析任务、情境和当事人,将复杂问题逐步简单化,最终得到较为完善的结果。在类似系统中,也可以参照这种渐进式分析思路,解析看似复杂的问题。例如,在人工智能翻译中,“你好”这句话的语音翻译很简单,但其实际含义涉及语义分析问题。通过分析说话人的特征、其所在的情境及所从事的事情(任务),可以得到较好的意图识别结果。
在SUT模型中,操作者操作意图的识别是人机系统中短期意图识别的重要环节。识别操作者意图需要分析其外在行为、神经生理指标和环境线索等。
外在行为特点包括操作者的操作信息和操作特征信息。操作信息指操作者在人机界面上的操作,由机器系统记录的信息,如按键速度。操作特征信息指操作者在人机交互操作时的外在特征信息,如眼动轨迹、注视点、头部转动角度等。这些行为信息需通过专门设备收集, 如眼动系统、动作捕捉系统等。
利用外在行为特点可较好地实现操作意图识别。例如,通过方向盘转角、转角速度、转向力矩、转向灯状态等特征参数,使用BP(back propagation)神经网络构建模型预测驾驶员变道意图,实验结果表明该模型准确率达91%。此外,通过摄像头获得眼睛注视特征、头部运动状态、面部视觉状态等特征信息识别操作意图也有较好效果。眼睛注视行为是人类归因意向性的关键线索之一,人类常通过眼动注视来预测和解释他人意图。
神经生理信号如肌电信号、表面肌电信号和脑电信号在操作意图识别中也很常见。智能假肢与外骨骼机器人系统中,肌电信号应用广泛,能直接反映肌肉运动倾向,从而解析运动意图。例如,有人设计了一种膝盖外骨骼,通过增加肌电传感器并与编码器和LBAK(指膝关节中心到脚踝的距离)传感器融合,使运动意图识别成功率从82.1%提升到92%,同时识别时间缩短27.1毫秒。
环境信息对操作意图的识别也非常重要。例如,在驾驶场景中,操控意图通常与道路环境相关联。交通环境是激发或阻碍驾驶员变道意图的重要因素。
在实际操作中,研究者通常采用多模态信息融合方式收集操作者在操作时的外在行为、生理和环境等信息,并在此基础上,采用深度学习等算法构建识别模型。
基于意图识别的智能设计能够感知外在信息,进行分析处理及自主反应,从而极大地改善人们的工作、学习和生活条件。
智能设计的主要目的是提高系统效率和安全性,通过推送信息和提供辅助操作来实现。
推送信息包括辅助信息和预警信息。辅助信息指帮助操作者更高效操作的相关信息,如操作途径、操作内容和环境信息。在交互显示器设计中,系统可直接推送操作者执行相关操作的信息,实现“按需显示-操作”信息显示方式,甚至通过控制键的突显显示推送操作途径信息。
这不仅能够缩短操作时间,还有助于有效管理工作负荷。
预警信息是系统觉知到风险时对操作人员推送的警示信息,目的是提醒操作者提高警觉, 防止意外事故。例如,驾驶员变道预测模型在检测到驾驶员操作意图违反交通规则时,会自动发出警告,避免交通事故。
辅助操作方式包括模糊控制和人机共享控制。模糊控制是最常见的智能控制策略之一, 操作者不需精确控制操作装置即可完成任务。例如,智能鼠标在识别操作者的操作意图后就会自动调节鼠标控制显示增益,保证操作者的有效操作。当需进行较长距离光标移动时,增益提高,操作者只需移动很短距离即可达目的点;精细定位操作时,增益下降,利于精细操作。又如,焊接工人遥操作智能机械臂进行焊接时,经验不足易因抖动出现锯齿轨迹,而识别工人的操作意图可以允许系统辅助工人按照预期路径完成焊接,显著减少轨迹中的瑕疵。
例如,飞行员在飞行过程中产生不合理操作意图时,驾驶舱助理系统及时识别并反馈给空管部门,以采取适当措施确保飞行安全。紧急避障时,驾驶员因紧张易做出过量、过大的转向操作, 系统识别出紧急避让操作意图时,会及时干预以维持车辆驾驶的稳定性。
意图识别不仅应用于工作场景,还广泛应用于生活和学习场景。这些应用不仅仅是操作型的,也包括社会型的。
首先,人们常用的APP设计中已经广泛应用了意图识别。例如,在打车APP中,出发地可以自动默认GPS定位,目的地则默认常用地点。如果开发者更为机智,可以利用SUT模式更精准地设置用户的出发地和目的地。比如,如果你每天打车上班,地点和时间相对固定,APP可以根据GPS定位和时间判断,自动设定出发地和目的地。
基于意图识别的原理,我们设计过一种自适应动态手机电话本。当你到北京出差或旅游时,经常联系的朋友名字会自动排在电话本顶端,免去查找的困惑。
这种基于意图识别的智能设计思路可以推广到APP的整体框架设计。我们曾对一个APP进行评价和更新。原设计有上百项操作功能,用户需要通过菜单查找功能。研究发现, 用户常用的功能只有十项。基于此,我们改进了APP的交互设计,将这十项功能图标直接放在首页。这样,用户无需查找,提高了操作效率。然而,许多软件界面设计未考虑用户的操作意图。例如,最新智能手机的“设置”功能,界面呈现一堆设置选项,用户需要查找所需功能。如果你知道用户在“设置”中80%以上的操作仅是连接局域网,你就会觉得现在的智能手机其实并不智能,没有体现意图识别的优势。
除了软件界面设计,生活设施和环境中也有许多智能设计。例如,智能马桶通过人体姿态识别技术自动开盖;机场车站和家居小区通过面部识别技术自动放行人员;学校教室和会议室的灯光照明通过群体姿态识别技术自动设置会议和PPT播放模式。此外,环境的照明、温度和通风设计也可以利用人体动态姿态和状态识别技术,调整各种微环境参数,提高人们在环境中的舒适度。
随着科技水平的提高,特别是AI技术的发展,基于意图识别的智能设计将逐渐取代传统设计,一个全新的智能时代即将到来。
展望
首先需要说明的是,从SUT模型到操作意图的识别,再到智能设计,我们所讨论的意图识别,都是机器(或智能体)对操作者(或当事人)的意图识别。但交互是双向的,也就是说,操作者(或当事人)对机器(或智能体)的意图识别也是一种意图识别。我们称其为“对智能体的意图识别”。有效实现对智能体的意图识别,是人和智能体建立互信的基础,也是人类与AI和谐共处、协作发展的基础。
今年(2024年),ChatGPT等生成式智能体引发巨大关注后,有人对人类和ChatGPT之间的沟通能力进行了测试。结果表明,在错误信念、失礼等五项测试中,ChatGPT在四项上优于人类个体。此外,有人提出了“人工智能智商”(AIQ)的概念。这种AIQ的高低, 直接决定了人类与智能体沟通的有效性。因此,我们需要加强对智能体意图识别的研究,以完善人和智能体的有效交互。
第二个问题是,如果智能体能有效识别人类的意图,我们能接受这种事实吗?我认为能做出肯定回答的人的数量很少。每个人都需要隐私,而行为意图是最大的隐私之一。因此,在工作场景中,为了系统效率和安全性,智能体应该有效识别人类的操作意图;但在其他场合, 如生活场景中,应避免智能体对人类意图的识别。这一问题需要更多学科的参与和深入研究。
本文主要介绍了机器或智能体对人类意图识别的技术,以及基于这种技术的智能设计思路。我们相信,技术进步需要更多的研究。我们现在所做的一切,都是在努力实现我们的美好设想。MI·专栏
Deng Q, Wang J, Hillebrand K, et al. Prediction performance of lane changing behaviors: a study of combining
environmental and eye-tracking data in a driving simulator[J]. IEEE Transactions on Intelligent Transportation
Systems,2019,21(8):3561-3570.
Strachan J W A, Albergo D, Borghini G, et al. Testing theory of mind in large language models and humans[J].
Nature Human Behaviour, 2024:1-11.
Khalil R, Tindle R, Boraud T, et al. Social decision making in autism: On the impact of mirror neurons, motor control,
and imitative behaviors[J]. CNS neuroscience & therapeutics, 2018,24(8):669-676.
Leonhardt V, Wanielik G. Feature evaluation for lane change prediction based on driving situation and
driver behavior[C]//2017 20th International Conference on Information Fusion (Fusion). IEEE, 2017: 1-7.
Moon D H, Kim D, Hong Y D. Intention detection using physical sensors and electromyogram for a single leg
knee exoskeleton[J]. Sensors, 2019, 19(20): 4447.
Qin X, Lu J G, Chen C, et al. Artificial Intelligence Quotient (AIQ)[J]. Available at SSRN 4787320, 2024.
Searle J R. Intentionality: An essay in the philosophy of mind[M]. Cambridge university press, 1983.
Wang Q, Jiao W, Yu R, et al. Virtual reality robot-assisted welding based on human intention recognition[J].
IEEE Transactions on Automation Science and Engineering, 2019, 17(2): 799-808.
Yott J, Poulin-Dubois D. Are infants’ theory-of-mind abilities well integrated? Implicit understanding of
intentions, desires, and beliefs[J]. Journal of Cognition and Development, 2016, 17(5): 683-698.
Zheng H, Ma S, Fang L, et al. Braking intention recognition algorithm based on electronic braking system in
commercial vehicles[J]. International Journal of Heavy Vehicle Systems, 2019, 26(3-4): 268-290.
卢辉遒, 赵枫,谢波,等.冰雪环境下基于神经网络的驾驶人换道意图识别[J].吉林大学学报( 工学版),2023,53(1):273-284.
刘骅.基于自适应鼠标的指点任务效率研究[D].浙江理工大学硕士学位论文,2014.
文章来源公众号“复旦商业知识”,作者 “葛列众”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md