ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
一个真正意义上的实时多模态智能体框架,TEN Framework 为构建下一代 AI Agent 而生
4684点击    2024-10-30 15:55


自从 OpenAI 展示了 GPT-4o 的实时对话能力后,感觉电影《Her》中的场景瞬间成了现实。受这种突破性多模态体验的启发,开发者们开始疯狂寻找构建实时对话 AI 智能体的方法。虽然现在有一些开源工具可以让大家轻松上手做点编排,但要真正构建一个多模态 AI Agent还是很难——这些智能体不仅需要超低延迟,还得掌握聊天、语音转文字、文字转语音、实时音视频通信等技术。更别提要把这些技术都无缝整合在一起,打造出像人类一样的互动体验,真的是个「脑力活儿」。


不过,好消息来了!有了 TEN(Transformative Extensions Network,变革性扩展网络),开发者们终于不用再「绞尽脑汁」了!TEN 是全球首个真正实现实时多模态智能体的框架,不仅能减少开发痛点,还让你轻松从头开始构建下一代 AI 应用。


什么是 TEN 框架?


TEN 框架是一个开源的开发框架,专为那些希望快速构建支持语音、视频、数据流、图像和文本的实时多模态智能体的开发者打造。它让开发者轻松试验、集成大语言模型,并创建可复用的扩展。想要做语音聊天机器人?AI 生成的会议记录?语言导师或虚拟伴侣?甚至是 AI 心理咨询师?TEN 都能帮你实现!它提供了丰富的 AI 服务和扩展,让你完全自由地构建、测试和发布能够实时思考、倾听、观察和互动的下一代 AI agent。


你可能听过开发者抱怨:「我想尽快构建出 AI agent!」或者企业开发者说:「我们需要一个能随着业务增长而扩展的解决方案。」对于那些想要快速构建演示版实时多模态 AI 智能体,或是需要一个能够轻松扩展到生产环境并允许添加新功能或大语言模型的框架,TEN 框架就是你的最佳选择



项目地址:https://github.com/TEN-framework/TEN-Agent

体验地址:agent.theten.ai/


你能用 TEN 框架构建什么?


使用 TEN 框架,你可以构建能够像人类一样自然、实时互动的 AI 智能体。让我们来快速了解一下由 TEN 驱动的代理演示,感受它的强大魅力吧!



Voice, Vision and RAG



TEN Agent 是一个服务器端的演示AI智能体,它通过多个扩展实现实时音频和视频交互,并支持 RAG(检索增强生成),可以访问和利用本地文档提供答案。开发者可以轻松修改提示词和其他配置参数,以满足自己的需求。快来试试吧!你会惊讶于在不到 10 分钟内就能创建出一个 AI 智能体!


当然,你也可以使用 TEN 框架在本地构建自己的AI智能体。对于更复杂的用例,TEN 框架允许开发者通过社区的第三方插件,集成一个或多个大语言模型(LLM),并使用内置的扩展管理工具 TEN Manager 来管理它们之间的数据流。此外,Graph Designer 提供了一个简单的拖拽界面,方便你轻松设计工作流(如下图所示)。



TEN Graph Designer


为什么选择 TEN 框架?


未来的生成式 AI 预计将迅速转向语音和视频作为主要且最自然的交流界面,而实时交互(RTE)将成为大多数应用的标准。在这一转变过程中,我们发现现有的 AI 智能体平台存在一些局限性。


例如,一些平台虽然在快速开发多模态代理方面表现出色,但仅限于使用 Python,这限制了其构建更复杂应用程序并扩展到更广泛用例的潜力。同样,其他平台可能对音频和视频的支持有限,进一步限制了它们的多样性。


TEN 框架的设计初衷是帮助开发者更快、更轻松地创建实时多模态 AI 智能体:


  • 真正的实时多模态,超低延迟。TEN 支持语音、视频、数据流、图像和文本,尤其适用于实时翻译等语音或视频交互的用例。此外,不同扩展之间的交互(如数据传输)得到了优化,简化了端到端的开发和性能。


  • 广泛的支持与可定制的扩展组件。与其他仅支持有限多模态和编程语言的工作流构建工具不同,TEN 框架支持 Golang、C++和 Python,Node.js 也即将推出。此外,TEN 支持在所有主要平台上进行开发,包括 Windows、Mac、Linux 和移动设备。所有扩展组件都是模块化结构,跨多种语言具备完全的灵活性。非常欢迎扩展组件开发者将他们的服务连接到框架和社区中。


  • 实时响应与状态管理。TEN 框架通过优先考虑实时响应、动态工作流和同步数据,构建出的 AI 智能体能够提供更具互动性、类似人类的 AI 体验,特别是在多用户的场景下。使用 TEN,开发者拥有一个低延迟、同步、可调节媒体质量、支持并发用户、网络弹性等功能的框架。


  • 同时支持边缘计算与云端。通过 TEN 框架,部署在边缘和云端的扩展可以无缝结合,创建各种应用程序。对于隐私敏感的边缘部署,可以使用本地计算能力来降低整体成本并减少延迟,而云端的大语言模型可以集成以实现成本与性能的最佳平衡。


  • 极速构建体验,开发者友好。直观的可视化界面和拖放组件让开发者轻松上手。对于有更复杂需求的开发者,TEN 的灵活架构和开放 API 提供了一个强大的平台,用于构建自定义扩展。此外,TEN 欢迎社区的各种创意和贡献。


使用 TEN 作为你的 AI 智能体框架,让你的想象力起飞!立即访问 TEN Agent 仓库,构建你的第一个AI 智能体吧!如果你享受构建和探索的乐趣,记得在仓库上为我们点赞。



文章来自 “ RTE 开发者社区 “


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI工作流

【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费)


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/(付费)

2
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

3
RAG

【开源免费】graphrag是微软推出的RAG项目,与传统的通过 RAG 方法使用向量相似性作为搜索技术不同,GraphRAG是使用知识图谱在推理复杂信息时大幅提高问答性能。

项目地址:https://github.com/microsoft/graphrag

【开源免费】Dify是最早一批实现RAG,Agent,模型管理等一站式AI开发的工具平台,并且项目方一直持续维护。其中在任务编排方面相对领先对手,可以帮助研发实现像字节扣子那样的功能。

项目地址:https://github.com/langgenius/dify


【开源免费】RAGFlow是和Dify类似的开源项目,该项目在大文件解析方面做的更出色,拓展编排方面相对弱一些。

项目地址:https://github.com/infiniflow/ragflow/tree/main


【开源免费】phidata是一个可以实现将数据转化成向量存储,并通过AI实现RAG功能的项目

项目地址:https://github.com/phidatahq/phidata


【开源免费】TaskingAI 是一个提供RAG,Agent,大模型管理等AI项目开发的工具平台,比LangChain更强大的中间件AI平台工具。

项目地址:https://github.com/TaskingAI/TaskingAI

4
免费使用GPT-4o

【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。

在线使用:https://ffa.chat/

5
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0