AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。

来自主题: AI技术研报
7565 点击    2024-05-10 23:32
斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用

斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用

斯坦福20亿参数端测多模态AI Agent模型大升级,手机汽车机器人都能用

全球首个超小型多模态AI Agent模型Octopus V3,来自斯坦福大学的NEXA AI团队,让Agent更加智能、快速、能耗及成本降低。

来自主题: AI技术研报
3711 点击    2024-05-07 18:12
告别偏科,能玩转多模态、多任务、多领域的强化智能体终于来了

告别偏科,能玩转多模态、多任务、多领域的强化智能体终于来了

告别偏科,能玩转多模态、多任务、多领域的强化智能体终于来了

随着 Llama 3 发布,未来大模型的参数量已飙升至惊人的 4000 亿。尽管每周几乎都有一个声称性能超强的大模型出来炸场,但 AI 应用还在等待属于它们的「ChatGPT 时刻」。其中,AI 智能体无疑是最被看好的赛道。

来自主题: AI技术研报
3895 点击    2024-05-05 19:40
解密中国首个“音乐版Sora” | 中国AIGC产业峰会

解密中国首个“音乐版Sora” | 中国AIGC产业峰会

解密中国首个“音乐版Sora” | 中国AIGC产业峰会

文生图、文生音频、文生视频、AI搜索引擎……大模型在多模态的进程可谓是愈演愈烈。

来自主题: AI技术研报
10068 点击    2024-05-01 19:50
参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?

多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据,从而指导其行为决策。近期,将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展,但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

来自主题: AI技术研报
8216 点击    2024-05-01 19:35
智子引擎发布多模态大模型 Awaker:MOE、自主更新、写真视频效果优于 Sora

智子引擎发布多模态大模型 Awaker:MOE、自主更新、写真视频效果优于 Sora

智子引擎发布多模态大模型 Awaker:MOE、自主更新、写真视频效果优于 Sora

在 4 月 27 日召开的中关村论坛通用人工智能平行论坛上,人大系初创公司智子引擎隆重发布全新的多模态大模型 Awaker 1.0。

来自主题: AI资讯
10436 点击    2024-05-01 12:21
具身智能最佳形态是什么?它是通往AGI必由之路?八位头部玩家、学者现身说法

具身智能最佳形态是什么?它是通往AGI必由之路?八位头部玩家、学者现身说法

具身智能最佳形态是什么?它是通往AGI必由之路?八位头部玩家、学者现身说法

ChatGPT-4 被认为是人工智能技术发展的重要节点,语言大模型之后的多模态大模型初步显现了世界模型的影子。大模型最终将通过硬件与物理世界产生交互。人工智能的应用实现从数字世界到物理世界的扩展,具身智能是非常关键的技术方向。

来自主题: AI技术研报
5787 点击    2024-04-30 17:43