ChatGPT 人工智能 GPT4 伦理 生成式 医疗 监管 安全 机器学习 深度学习 神经网络 计算机视觉 强化学习 模型 算法 应用 开发 研究 工具 平台 框架 数据集 训练 部署 安全 合规 培训 投资 LLM,llm AI,ai,Ai 大模型 大语言模型 制图 生图 绘图 文生图 文生视频 生成式AI AGI 世界模型 sora chatGPT,chatgpt,ChatGpt claude openai Llama deepseek midjourney 红熊猫模型 Red panda,panda Stable Diffusion,StableDiffusion,stable DALL- E 3 DALL E DALL Flux,flux 扩散模型 混元大模型 文心一言 通义千问 可灵 Pika PixelDance 豆包 月之暗面 零一万物 阶跃星辰 搜索增强 MiniMax Talkie Agent prompt fastai LangChain TTS 微调 提示词 知识库 智能体
# 热门搜索 #
搜索
清华团队发布首个「真实开放环境具身智能环境」EmbodiedCity
2855点击    2024-10-16 11:09

虚幻引擎5加持。



具身智能被视为当前人工智能(AI)领域最具潜力的方向之一,重点关注智能体感知、学习和与环境动态交互的能力。


近年来,具身智能发展迅猛,在多个领域取得突破进展。然而,当前大多数具身智能研究聚焦于有限环境如室内场景中,针对城市级别开放真实世界场景的探索较为匮乏,急需构建相应的模拟平台和基准测试集。


近日,清华大学城市科学与计算研究中心开放发布基于虚幻引擎5的城市具身智能模拟环境EmbodiedCity,专为多模态大语言模型(MLLM)和由大语言模型(LLM)赋能的智能体而量身定制,基于真实城市开放场景打造3D城市环境,并进一步针对不同维度和水平的开放空间具身智能能力,构建相应的任务集和数据集,可支撑真实开放空间具身智能的多类研究任务。



官方网站:https://embodied-city.fiblab.net/


论文链接:https://embodiedagentbenchmark.github.io/agent/static/article/EmbodiedCity.pdf


该平台提供离线运行和在线接入两种方式,既可以下载在不同操作系统本地环境运行,也可以访问智能体在线平台,基于Python SDK调用开发智能体,在平台网页直接编程使用。


EmbodiedCity模拟环境


EmbodiedCity以北京市国贸区域的真实道路和建筑布局为基础,结合人流和车流的真实数据与模拟算法,基于虚幻引擎5构建了一个真实、动态、开放的城市具身环境。




环境中主要包含以下元素:


(1)街道:机动车/非机动车道、十字路口、交通信号灯和人行道,街道布局合理多样。




(2)建筑物:办公楼、购物中心、住宅小区等,细粒度建模还原真实建筑。



(3)其他元素:长椅、路灯、植被以及动态的车辆和行人,城市场景充满活力。




城市具身智能任务基准测试集



为充分探索开放环境具身智能体的感知、推理和决策能力,EmbodiedCity构建了一系列评测任务,既包括代表性的具身任务,涵盖行人模拟、车流模拟、场景理解、问答、对话、导航和规划,也支撑传统的感知、预测、决策等任务。



其中,针对开放空间具身智能构建的任务集如下:


1. 跨模态场景理解:智能体观察环境元素并给出准确描述,通过在同一位置从不同角度观察,生成一组RGB图像作为输入,得到相应的文本描述。


2. 跨模态问答:在具身场景理解的基础上,智能体接收有关环境语义和空间信息的自然语言问询,例如,「场景中有多少个建筑?」以及「在当前视角下A建筑是否在B建筑的左边?」输入包括第一视角的RGB图像和有关环境的问题,对问题进行直接文本回答。



3. 多轮对话:具身对话涉及智能体与用户之间的持续互动,需要维持上下文和理解对话流。例如,「后方中有多少棵树?-> 它们分别是什么颜色的?」任务的输入包括具身观察和多轮查询,得到多轮响应。


4. 具身导航/搜索:智能体根据自然语言指令在环境中进行具身导航,输入结合了视觉感知和自然语言指令,以引导智能体通过复杂环境进行实时感知、推理、决策。任务输出是环境中的行动序列。



5. 任务规划:智能体需要能够将复杂且长期的具身任务目标拆分为多个子任务,例如,「我需要去便利店购物,但我不知道怎么走,应该怎么做?」输入包括第一视角的观察和自然语言描述的任务目标,输出是智能体所规划、拆解的一系列子任务。


6. 个体行为模拟:对于行人、车辆、无人机等不同类型的智能体,需要基于第一视角的观察和当前任务规划,生成与真实个体类似、符合真实个体规律和模式的行为与动作,该任务依赖于上述任务所体现的开放世界中的感知、规划、决策等具身智能能力。


文章来自于微信公众号“学术头条”


AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md