今年年初,英伟达 CEO 黄仁勋因为劝人「别再学习计算机」被送上热搜。但其实,他的原话是「过去,几乎每个人都会告诉你,学习计算机至关重要,每个人都应该学会编程。但事实恰恰相反,我们的工作是创造计算技术,让大家都不需要编程,编程语言就是人类语言。」
编程,是为了不再编程,这一愿景由来已久,而且在大模型出现之后逐渐成为可能。但在现阶段,直接把一个大模型丢给某个人或某个企业去用效果仍然不好。比如,你不能指望一个不会写 Prompt 的人利用大模型去构建一整个网站,也不能指望一个没有配置 AI 人才的公司把某个大模型变成公司「智囊」。
也就是说,现在的大模型离「开箱即用」还有一段距离。
不过,在 5 月 17 日的腾讯云生成式 AI 产业应用峰会上,我们看到了可以缩小这一距离的产品,比如能调用腾讯官方插件和知识库的一站式 AI 智能体创作与分发开放平台 —— 腾讯元器,能帮助一线业务人员用好大模型解决实际业务难题的腾讯云大模型知识引擎、腾讯云大模型图像创作引擎、腾讯云大模型视频创作引擎等。
为这些产品提供支撑的腾讯混元大模型能力也在持续升级,部分中文能力已追平 GPT-4,支持 16 秒视频生成。目前,腾讯混元 hunyuan-pro、hunyuan-standard、hunyuan-lite 等多种尺寸模型,已通过腾讯云,面向企业、开发者全量开放。其中 hunyuan-standard 支持 256K 上下文,长文档理解和处理能力更强了。
在这次全新发布中,知识引擎是一款比较有代表性的 PaaS 类产品,可以让企业 5 分钟就开发出一款客服营销、企业知识社区类知识服务应用。这类大模型平台的出现打破了人人都需要掌握大模型复杂用法的局面,让大模型离产业更近了。
如果你在视频号上关注过一个叫「李蠕蠕」的博主,那你一定看过她的「销冠」系列。在视频中,她扮演的销冠角色会展示不同的销售策略,比如如何通过判断顾客的心理和需求来推销产品、如何应对还价、如何判断顾客的购买力等。批量复制这类「销冠」是每一个公司的梦想。
腾讯云知识引擎有助于实现这个梦想。它利用「LLM+RAG」的技术路线,可以帮企业轻松搭建融合了自己私有领域知识库的问答助手。如此一来,每个员工都能够以问答的形式迅速获取公司知识,学习「老员工」经验,快速提升业务能力。
而这个过程之所以这么轻松,是因为腾讯云知识引擎封装了一些好用的模型和工具。
在利用知识引擎构建应用后,企业首先需要导入自己的知识库,以供检索。在这一环节,文档排版的复杂性决定了,解析这些知识不是一件容易的事,要克服图文混排处理、结构化表格识别、公式识别、流程图识别、阅读顺序保持等诸多问题。
针对这些问题,腾讯云知识引擎集成了 OCR 解析大模型,通过三个步骤来解析文档:
其中,表格、公式的情况较为复杂,比如有些表格可能没有框线。针对这类问题,OCR 大模型通过融合行列关系特征和元素特征来预测表格的行列间隔线。这样一来,即使表格没有明显的框线,也能通过算法推理出结构。此外,这个 OCR 大模型还能识别跨页合并表格、多行表等,对科研论文场景的复杂公式解析效果也比较好,是国内少数能够与海外顶尖模型(如 Google 的 MP 模型)相媲美的模型之一。
整体来看,OCR 解析大模型将文档识别的准确率提升了 30%。这种对文档结构的深入理解对于处理更复杂的任务至关重要,比如信息的归纳、总结、对比分析和数值计算等。
让 OCR 解析大模型把知识解析出来,就能进行检索了吗?不,中间还有一个重要的步骤 —— 知识切分。
知识切分的难点在于如何准确地识别出某些信息属于一个信息块,并将其完整地切出来,比如跨页的流程图、表格。传统的切分方法是按照规则去切分,但不同的内容往往需要不同的切分方式,这使得切分规则变得异常复杂,不易维护。
为了解决这一问题,腾讯云推出了业内首个基于语义判断的知识切分大模型。和传统切分方法不同,它不需要你告诉它如何切分,而是自己去理解整篇文章的一级、二级、三级段落是怎样的分布,实现端到端的切分。这得益于模型在预训练过程中获得的语义理解、长上下文关联能力。此外,巧妙设置 prompt、构造微调数据也起到了很大作用,使大模型能够适应长文本切分需求并有较快的推理速度。
通过准确的知识切分,大模型可以更有效地支持检索,让检索系统可以基于更合理、语义更完整的文本块进行搜索,从而提高检索的准确性和效率。在这个模型的帮助下,知识引擎的回答完整性提升了 20%。
在文档被充分解析、恰当切分后,检索过程就能更加顺利地进行了。不过,如何从海量的多模态数据中检索到最相关的信息依然是一大挑战。
腾讯云知识引擎从两个方向入手来优化检索效果。首先,通过自研的长文档 Embedding 模型,它把检索最大长度从 512 提升到 4K,以支持更复杂的长文本检索任务。在国际知名的 C-MTEB 榜单上,该模型在 8 个中文任务上可以达到效果最优。
其次,它支持向量关键词检索、表格文字混合检索等多种检索策略,这使其检索能力不仅限于传统的文本检索,还支持大型复杂表格等复杂检索需求。甚至,对于上万行、上百列的超大表格,知识引擎也能从容应对。
这些检索到的信息是大模型回答用户问题的重要依据,有助于提高生成文本的质量和可靠性。
在检索过程完成后,大模型会得到一个包含答案线索的 Prompt,用于回答用户提问。
这些问题有时会很专业,涉及到行业术语和规范。比如一个「教案助手」必须知道教案需要包含哪些内容,以何种形式编写。为此,腾讯云在通用大模型的基础上,深入了上百个用户场景,融入了大量的垂直领域知识,训练、调优了多个行业大模型,以降低特定行业的落地成本。
此外,用户的提问可能会非常多元,不仅有文字,还会附上图片、文档、表格甚至非常复杂的流程图。为了解决这些问题,腾讯云知识引擎集成了多模态大模型的能力,支持数据表、数据图、操作图等图文交错的多轮问答,能够满足各种真实场景的需求。
当然,在问答过程中,知识引擎也会遇到一些解决不了的问题(bad case)。但好在,它的背后还有一个强大的底座 —— 腾讯云 TI 平台。TI 平台上有一整套数据处理、模型精调工具,可以将 bad case 转化为有价值的训练数据,还有 100 多种任务类型的精调配比数据可供选择,帮助进一步提升模型性能。这是很多知识引擎类应用所不具备的优势。
除了知识引擎,腾讯云这次还发布了其他几个开箱即用的平台,包括腾讯元器、图像创作引擎、视频创作引擎等。
其中,腾讯元器是一个智能体创作和分发平台,主打「低门槛」。通过提示词、插件、工作流、AI 辅助创建等能力,每个人都可以在几分钟内通过打字、点选等简单操作构建自己的专属智能体。
而且,元器平台上预集成了腾讯生态特色插件、知识库资源,还将开放第三方能力,丰富智能体的功能。
创建完成后,你可以将这些智能体发布到 QQ、微信或 APP 上,优质智能体有机会获得流量扶持。
图像创作引擎支持图像风格化、AI 写真、线稿生图等能力,可以大幅缩短素材创作和生产周期。
视频创作引擎支持视频风格化、运动笔刷、画布拓展等视频 AI 创作能力,还能一键转译视频语言,帮助企业投放海外市场。
这些引擎和知识引擎共同组成了大模型时代原生工具链,体现了腾讯云「产业实用」的大模型核心战略。
这一战略可以被解读为:如何让用户以最低的成本或门槛、最小的必要输入来获得最佳的大模型应用实践。
这一价值主张在知识引擎等产品中有多种体现。从整体来看,它有工具层、模型层和应用层的全方位支持,而不仅仅是模型本身,而且解决方案涵盖了从数据处理、模型训练、应用开发到最终的部署和运维等多个环节。
从细节来看,它没有限制底层的大模型,而是以实用为判断标准,提供了混元大模型、精调的行业大模型、客户定制大模型以及基于第三方大模型精调而成的知识引擎专用模型等多种选择,帮助企业控制成本。此外,它的接入方式也非常简单,提供开箱可用的应用模板和可被集成的原子能力 API 两种便捷使用方式,把门槛降到无限接近于 0。
就像腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生所说,「大模型的打造只是起点,把技术落地到产业场景,创造价值才是目标」。我们也期待看到更多这类「产业实用」的大模型应用产品出现。
本文来自微信公众号“机器之心”
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】FASTGPT是基于LLM的知识库开源项目,提供开箱即用的数据处理、模型调用等能力。整体功能和“Dify”“RAGFlow”项目类似。很多接入微信,飞书的AI项目都基于该项目二次开发。
项目地址:https://github.com/labring/FastGPT
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0