2023年初,火遍全球的ChatGPT揭开AIGC元年大幕,国内外各家科技公司纷纷发布大模型,一时间“百模大战”风起云涌。6月下旬,AI行业准独角兽实在智能(Intelligence Indeed)开启自研垂直大语言模型“塔斯(TARS)”内测。
在此之前,早在2022年12月,实在智能曾首创基于计算机视觉大模型的“智能屏幕语义理解”技术(ISSUT),并发布“实在IPA”模式,将RPA从传统“拖拉拽”的专家模式进阶到轻松“点选用”的小白模式,实现RPA的人人可用。
时针再拨到2023年下半年,“大模型如何在真实商业场景快速、有效落地”成为科技届与产业界最关注的首要问题。8月16日,实在智能召开第七次新品发布会,对这个问题交出实实在在的答卷。
会上,实在智能正式发布“塔斯(TARS)”大模型,并震撼推出行业首个基于大模型的TARS-RPA-Agent产品,将数字员工应用门槛进一步大幅降低,实现“所说即所得,你说,PC做!”
在AIGC时代到来之际,实在智能通过“TARS大语言模型(通用基础模型、各个垂直行业模型)+ISSUT(智能屏幕语义理解)机器视觉大模型”重构了技术底座,并在这二者之上,对超自动化产品矩阵升级改造,持续发布创新应用。
发布会上,TARS大模型展现了优异的文本生成、语言理解、知识问答、逻辑推理等主流能力。
其中,与湘财证券共建的“自研、有效、安全、可信任、可落地”的财经行业大模型TARS-Finance-7B,既保留了生成类大模型的通用技能,更在金融财经领域得到了显著的加强和提升,在多个中英文的通用基准测评集和财经领域基准测评集上均取得良好成绩:
优异测评成绩的背后,是历时4个月实实在在的工作:
轻便落地的大模型,才是更好的大模型。“成本可控、效果可用、定制化训练、私有化部署”是TARS大模型在真实场景商用落地的关键特性。
在解决大模型的轻便性和易用性方面,实在智能也做了很多创新,如通过模型量化降低推理阶段的硬件资源消耗、通过推理加速工具和技术优化问答交互产品体验等。此外,TARS大模型支持无缝对接实在Chatbot产品,可以将大模型的能力通过“⼀键配置”便捷投放到网页、App、小程序等各个终端,同时支持私有化部署,模型更可控、数据更安全!
大模型时代开启后,实在智能一直在思考如何将大模型与RPA产品相结合,通过文本指令或对话聊天的方式直接生成数字员工,操作PC电脑自主完成工作任务。从而在实在IPA“小白模式”基础上,将RPA使用门槛再进一步降低,直接进入到“所说即所得,你说,PC做”的“傻瓜模式”。
经过不断探索和尝试,实在智能在业界首发基于大模型的Agent产品,即TARS-RPA-Agent——这是一个基于“TARS+ISSUT”双模引擎,有“大脑”,更有“眼睛和手脚”的超自动化智能体。同时,也是能够自主拆解任务、感知当前环境、执行并且反馈、记忆历史经验的RPA全新模式。
发布会上,欧阳小刚(新一)详细介绍了TARS-RPA-Agent在设计过程中的解决的关键问题和创新特性:
在实际场景中,人类的复杂指令往往蕴含在非常简洁的语句当中,并不是通过大模型生成一段Python代码,或简单调用3-5个RPA组件就能实现。
TARS-RPA-Agent支持将表述简单但含义复杂的指令,进行Chain-Of-Thought式的自主拆解和细化,之后将拆解出的子任务和具体步骤与实在RPA的流程块和组件进行映射,最终完成一体化、高可控的复杂流程生成。
例如,“我要买一台笔记本电脑,帮我推荐下”,TARS-RPA-Agent可将其拆解成“登录购物网站,查询笔记本电脑品牌、配置、价格等信息,完成产品推荐”等多个步骤并加以自动实现。
“如何在理解指令含义的基础上,精准找到所要操作的屏幕画面上哪里是输入框、登录按钮或者聊天窗口?如果不仅仅是基于浏览器的软件而是成千上万种不同CS架构的客户端软件怎么办……”
“你是我的眼”,基于计算机视觉大模型的“智能屏幕语义理解”技术(ISSUT)为TARS-RPA-Agent装上了感知世界的眼睛,带来真正基于人类视觉的电脑屏幕和操作对象理解。
ISSUT使得TARS-RPA-Agent可以“秒懂”屏幕画面,第一时间完成自动解析,无需人工介入参与。在无法解析网页源代码或者客户端软件不开放API接口的大量真实场景中,ISSUT的价值倍加凸显。
例如,理解指令并自动操作并不开放API接口的企业微信:
PDCA(计划、执行、检查、处理)是人类优秀的工作习惯,在执行过程中不断反馈和修正是客观世界的一般规律。真实场景的意图理解和任务执行非常复杂,TARS-RPA-Agent同样需要保证每一步操作的正确性,避免因为理解偏差,或者操作失误,导致最终无法完成任务。
因此,TARS-RPA-Agent巧妙地设计了“基于强化学习的单步寻优策略和每步执行的反馈”相关机制,不断提高决策和执行过程的正确性、可控性。
例如,基于之前动作的启发式寻优:
“圣斗士不会被同样的招数打败两次”,作为一个智能体,TARS-RPA-Agent也需要提升自主学习和迭代能力,从而能够学习历史经验,并通过历史案例不断提升下次遇到类似任务时的自主决策能力,持续提升人机协同效率。
大模型的上下文保留和决策优化等长时记忆能力,通常通过内存管理等手段实现。TARS-RPA-Agent也结合上下文扩展、向量检索等技术,配备了长时记忆能力,支持将过往任务的执行情况、用户修正、执行结果等保存到数据库,并作为后续分析和优化的基础。
本次发布会,TARS+ISSUT大模型双底座为超自动化带来崭新视野,TARS-RPA-Agent开创人机协同“你说,PC做!”的更高境界。
后续,在对模型性能、安全性等方面进行充分评估和修正后,实在智能将对社区开源TARS-Finance-7B财经大模型,以促进生成式大模型方向的学术研究和应用发展。也将继续扩大TARS垂直大模型的参数规模,迎接更多的能力涌现。
文章转载自微信公众号”实在智能“,作者 你说,TArs做的
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner