让大模型操纵无人机,北航团队提出具身智能新架构
让大模型操纵无人机,北航团队提出具身智能新架构进入多模态时代,大模型也会操纵无人机了!只要视觉模块捕捉到启动条件,大模型这个“大脑”就会生成动作指令,接着无人机便能迅速准确地执行。
进入多模态时代,大模型也会操纵无人机了!只要视觉模块捕捉到启动条件,大模型这个“大脑”就会生成动作指令,接着无人机便能迅速准确地执行。
如何打通物理世界和数字世界之间的屏障?多模态 AI 正处于爆发前夜。
啥?AI都能自己看电影大片了?贾佳亚团队最新研究成果,让大模型直接学会了处理超长视频。
用多模态大模型来做语义分割,效果有多好?一张图+文字输入想分割的物体,大模型几秒钟就能识别并搞定!
谷歌带着Gemini真的来了,多模态能力震惊全网。下一代模型将融合AlphaGo深度强化学习技术,2024年面世。真正可以叫板GPT-4的模型,当属谷歌Gemini。
昨天深夜,Google 突然发布重磅 AI 杀手锏——Gemini。多模态 Gemini 可以理解、操作和结合不同类型的信息,包括文本、代码、音频、图像和视频。
传说中的Gemini,终于在今天深夜上线了!「原生多模态」架构,是谷歌的史诗级创举,Gemini也如愿在多个领域超越了GPT-4。这场仗,谷歌必不能输。
大型多模态模型会做数学题吗?在UCLA等机构最新发布的MathVista基准上,即使是当前最强的GPT-4V也会感到「挫败感」。
本文中,上海交大 & 上海 AI Lab 发布 Radiology Foundation Model (RadFM),开源 14B 多模态医疗基础模型,首次支持 2D/3D 放射影像输入。
哈工深发布全新多模态大语言模型九天(JiuTian-LION),融合细粒度空间感知和高层语义视觉知识,在13个评测任务上实现了sota性能。