自从 OpenAI 展示了 GPT-4o 的实时对话能力后,感觉电影《Her》中的场景瞬间成了现实。受这种突破性多模态体验的启发,开发者们开始疯狂寻找构建实时对话 AI 智能体的方法。虽然现在有一些开源工具可以让大家轻松上手做点编排,但要真正构建一个多模态 AI Agent还是很难——这些智能体不仅需要超低延迟,还得掌握聊天、语音转文字、文字转语音、实时音视频通信等技术。更别提要把这些技术都无缝整合在一起,打造出像人类一样的互动体验,真的是个「脑力活儿」。
不过,好消息来了!有了 TEN(Transformative Extensions Network,变革性扩展网络),开发者们终于不用再「绞尽脑汁」了!TEN 是全球首个真正实现实时多模态智能体的框架,不仅能减少开发痛点,还让你轻松从头开始构建下一代 AI 应用。
什么是 TEN 框架?
TEN 框架是一个开源的开发框架,专为那些希望快速构建支持语音、视频、数据流、图像和文本的实时多模态智能体的开发者打造。它让开发者轻松试验、集成大语言模型,并创建可复用的扩展。想要做语音聊天机器人?AI 生成的会议记录?语言导师或虚拟伴侣?甚至是 AI 心理咨询师?TEN 都能帮你实现!它提供了丰富的 AI 服务和扩展,让你完全自由地构建、测试和发布能够实时思考、倾听、观察和互动的下一代 AI agent。
你可能听过开发者抱怨:「我想尽快构建出 AI agent!」或者企业开发者说:「我们需要一个能随着业务增长而扩展的解决方案。」对于那些想要快速构建演示版实时多模态 AI 智能体,或是需要一个能够轻松扩展到生产环境并允许添加新功能或大语言模型的框架,TEN 框架就是你的最佳选择。
项目地址:https://github.com/TEN-framework/TEN-Agent
体验地址:agent.theten.ai/
你能用 TEN 框架构建什么?
使用 TEN 框架,你可以构建能够像人类一样自然、实时互动的 AI 智能体。让我们来快速了解一下由 TEN 驱动的代理演示,感受它的强大魅力吧!
Voice, Vision and RAG
TEN Agent 是一个服务器端的演示AI智能体,它通过多个扩展实现实时音频和视频交互,并支持 RAG(检索增强生成),可以访问和利用本地文档提供答案。开发者可以轻松修改提示词和其他配置参数,以满足自己的需求。快来试试吧!你会惊讶于在不到 10 分钟内就能创建出一个 AI 智能体!
当然,你也可以使用 TEN 框架在本地构建自己的AI智能体。对于更复杂的用例,TEN 框架允许开发者通过社区的第三方插件,集成一个或多个大语言模型(LLM),并使用内置的扩展管理工具 TEN Manager 来管理它们之间的数据流。此外,Graph Designer 提供了一个简单的拖拽界面,方便你轻松设计工作流(如下图所示)。
TEN Graph Designer
为什么选择 TEN 框架?
未来的生成式 AI 预计将迅速转向语音和视频作为主要且最自然的交流界面,而实时交互(RTE)将成为大多数应用的标准。在这一转变过程中,我们发现现有的 AI 智能体平台存在一些局限性。
例如,一些平台虽然在快速开发多模态代理方面表现出色,但仅限于使用 Python,这限制了其构建更复杂应用程序并扩展到更广泛用例的潜力。同样,其他平台可能对音频和视频的支持有限,进一步限制了它们的多样性。
TEN 框架的设计初衷是帮助开发者更快、更轻松地创建实时多模态 AI 智能体:
使用 TEN 作为你的 AI 智能体框架,让你的想象力起飞!立即访问 TEN Agent 仓库,构建你的第一个AI 智能体吧!如果你享受构建和探索的乐趣,记得在仓库上为我们点赞。
文章来自 “ RTE 开发者社区 “
【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址:https://github.com/n8n-io/n8n
在线使用:https://n8n.io/(付费)
【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。
项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file
【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用:https://vectorvein.ai/(付费)
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。
项目地址:https://github.com/microsoft/graphrag
【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。
项目地址:https://github.com/langgenius/dify
【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。
项目地址:https://github.com/infiniflow/ragflow/tree/main
【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目
项目地址:https://github.com/phidatahq/phidata
【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。
项目地址:https://github.com/TaskingAI/TaskingAI
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。
项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md
在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0