# 热门搜索 #
搜索
搜索: 多模态大模型
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

当前,多模态大模型 (MLLM)在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。 比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。 定位能力的缺失直接限制了多模态大模型在图像编辑,自动驾驶,机器人控制等下游领域的应用。针对这一问题,港大和字节跳动商业化团队的研究人员提出了一种新范式Groma

来自主题: AI资讯
7637 点击    2024-05-27 16:31
从玻尔兹曼机到多模态大模型:Geoffrey Hinton的最新AI洞见

在人工智能的辉煌历史中,Geoffrey Hinton教授不仅是深度学习的奠基人之一,更是推动了整个领域从理论到实践的转变。在这次深入的访谈中,Geoffrey Hinton分享了自己在人工智能研究中的个人经历、对深度学习未来发展的深刻见解,以及对当前技术可能带来的社会影响的深思熟虑。

来自主题: AI技术研报
1308 点击    2024-05-25 10:44
GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4

OpenAI半小时的发布会让很多人第一反应是直呼「失望」,但随着官网放出更多demo以及更多网友开始试用,大家才发现GPT-4o真的不可小觑,不仅在各种基准测试中稳拿第一,而且有很多发布会从未提及的惊艳功能。

来自主题: AI技术研报
7851 点击    2024-05-19 16:01