阿里通义智能计算实验室在推出了一款专门针对VSCode的AI助手工具——SmartVscode。
通过自然语言指令,不仅可以让它帮你编程,还能搞定各种配置的控制和修改。
目前,该插件和背后的框架均已开源,并上架VS Code扩展市场。
SmartVscode的目标,是让大模型能够全面控制VS Code,主要具备两大核心能力。
用户可以通过自然语言指令,方便地控制和修改VS Code。
例如,打开某个难以查找的页面,精准快速地调整设置中的某项配置等。
无需记忆复杂的操作步骤,只需告诉SmartVscode你想做什么,它便会为你完成。
比如用户输入想要更改的样式,SmartVscode会自动地完成查找配置,修改配置等步骤。
或者想要使用Python编写快速排序代码,SmartVscode将会帮助我们自动化地完成一系列工作:检测Python的插件是否安装,选择对应的Python解释器,打开文件书写快排代码,执行对应的代码等步骤。
SmartVscode不仅让大模型全面控制VS Code,还可以VS Code内部丰富功能开发各类应用程序的能力。
简而言之,大模型充当“大脑”,VS Code作为“工具”,而SmartVscode则是连接二者的桥梁。
用户可以通过自然语言的描述,让大模型借助VS Code这一强大工具来帮助用户直接实现各种奇思妙想的应用程序。
比如用户输入一段关于井字棋游戏的描述,SmartVscode会自动完成创建文件,编写代码,执行程序等步骤。
这款SmartVscode插件使用起来也十分简单,只需要三个步骤:
SmartVscode的背后,是通义智能计算实验室自主研发的App-Controller框架。
App-Controller是一个基于大模型和智能体(Agent)的创新API编排框架,通过运用大模型的高级推理功能,实现对应用程序API接口的整合与协调。
它允许应用程序响应和执行基于自然语言的指令,极大提升了用户体验,并简化了应用程序与用户的交互流程。
下图展示了App-Controller如何增强应用程序的交互能力,左半部分描述了传统完成任务的问答和执行流程,右半部分展示了引入App-Controller后的完成任务的流程。
传统流程中,当用户需要在应用程序中完成某项任务却不知道该如何操作时,首先需要向大模型咨询操作步骤,然后根据指引一步步执行对应的操作,最终完成任务;
引入 App-Controller 后的流程中,用户仅需使用自然语言向应用程序输入需求,便可得到执行结果。
这背后的原理是应用程序在 App-Controller 的协助下借助大模型理解用户意图并编排需要执行的命令。
任何应用程序厂商仅需在App上实现通信接口并且向App-Controller提交其支持的 API 清单,框架便能独立地探索并识别出完成用户指令所需的最佳API调用顺序。
此外,它还搭载了一个高度抽象化、极具弹性的 HTTP 交互接口,进一步促进了应用程序的互联互通。
App-Controller具有如下这些特点:
从技术模块上看,App-Controller项目拥有以下五大核心功能:
文档分析增强模块在离线阶段发挥关键作用,帮助大模型更好地理解和利用应用程序的说明文档和可用API文档,提升任务执行的准确性和效率。
App-Controller允许用户上传两类关键内容,以辅助大模型完成任务:
为提升检索速度和精度,系统预先将用户上传的应用程序的说明文档和可用API文档进行分片处理。
每个知识片段通过先进的文本向量模型(如通义文本向量模型等)将文本内容转化为高维向量,捕捉深层语义信息。
最后基于这些向量构建高效索引的结构,实现快速相似性检索。
利用高效的向量索引结构,系统能够在大规模知识库中快速定位与用户任务相关的知识片段和可用API文档,显著提升信息检索的响应速度和准确性。
智能信息收集模块在用户输入具体任务后立即启动,负责全面搜集执行任务所需的所有相关信息。该模块的具体功能和流程如下:
智能API序列编排模块负责根据收集到的信息,规划并优化执行任务的API调用顺序,确保任务高效、准确地完成。
具体来说,该模块支持以下功能:
尽管AppController在智能控制和多应用扩展方面展现出强大的潜力,但通义智能计算实验室团队也指出了当前存在的几项能力局限:
首先是大模型推理能力的限制。
受限于当前大语言模型的推理能力,SmartVscode在处理某些复杂或细致的任务时可能会出现错误。
这些错误包括误解用户指令、执行不准确的操作等。
研究团队正在持续优化模型的训练和指令解析算法,以减少错误发生的频率,并提升操作的准确性。
第二是模型推理速度。
目前,模型的推理速度有时无法满足实时操作的需求,导致用户在执行任务时可能会体验到一定的延迟。为了解决这一问题。
研究团队正在优化模型的响应速度,通过更高效的算法和更强大的缓存机制,力求在未来版本中实现更快速的推理与响应。
最后,是对VS Code功能的支持还存在局限。
目前,SmartVscode已经基本覆盖了VS Code的常用基础功能,但对于一些复杂或高级的功能支持仍处于开发中阶段。
通义智能计算实验室团队正在积极扩展对VS Code更多复杂功能的支持,确保用户能够全面利用SmartVscode提升开发效率。
项目地址
App-Controller:
https://github.com/alibaba/app-controller
Smart-Vscode插件:
https://github.com/alibaba/smart-vscode-extension
文章来源微信公众号“量子位” ,作者 “ 阿里通义智能计算实验室 ”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】kimi-free-api是一个提供长文本大模型逆向API的开渔免费技术。它支持高速流式输出、智能体对话、联网搜索、长文档解读、图像OCR、多轮对话,零配置部署,多路token支持,自动清理会话痕迹等原大模型支持的相关功能。
项目地址:https://github.com/LLM-Red-Team/kimi-free-api?tab=readme-ov-file