AI资讯新闻榜单内容搜索-多模态大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态大模型
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

当前,多模态大模型 (MLLM)在多项视觉任务上展现出了强大的认知理解能力。 然而大部分多模态大模型局限于单向的图像理解,难以将理解的内容映射回图像上。 比如,模型能轻易说出图中有哪些物体,但无法将物体在图中准确标识出来。 定位能力的缺失直接限制了多模态大模型在图像编辑,自动驾驶,机器人控制等下游领域的应用。针对这一问题,港大和字节跳动商业化团队的研究人员提出了一种新范式Groma

来自主题: AI资讯
8180 点击    2024-05-27 16:31
中国移动千亿多模态大模型发布,「九天-九九」风趣畅聊堪比GPT-4o

中国移动千亿多模态大模型发布,「九天-九九」风趣畅聊堪比GPT-4o

中国移动千亿多模态大模型发布,「九天-九九」风趣畅聊堪比GPT-4o

央企通信巨头再次奏响大模型舞台的超强音!刚刚结束的中国移动人工智能生态大会主旨论坛上,中国移动发布了全自研「九天」千亿多模态基座大模型,一举成为国内最值得信赖、最懂行业的全栈大模型。

来自主题: AI资讯
9320 点击    2024-05-26 11:56
从玻尔兹曼机到多模态大模型:Geoffrey Hinton的最新AI洞见

从玻尔兹曼机到多模态大模型:Geoffrey Hinton的最新AI洞见

从玻尔兹曼机到多模态大模型:Geoffrey Hinton的最新AI洞见

在人工智能的辉煌历史中,Geoffrey Hinton教授不仅是深度学习的奠基人之一,更是推动了整个领域从理论到实践的转变。在这次深入的访谈中,Geoffrey Hinton分享了自己在人工智能研究中的个人经历、对深度学习未来发展的深刻见解,以及对当前技术可能带来的社会影响的深思熟虑。

来自主题: AI技术研报
2069 点击    2024-05-25 10:44
GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4

GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4

GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4

OpenAI半小时的发布会让很多人第一反应是直呼「失望」,但随着官网放出更多demo以及更多网友开始试用,大家才发现GPT-4o真的不可小觑,不仅在各种基准测试中稳拿第一,而且有很多发布会从未提及的惊艳功能。

来自主题: AI技术研报
8351 点击    2024-05-19 16:01
多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

多模态AI是医学的未来,谷歌推出三个新模型,Med-Gemini迎来大升级

许多临床任务需要了解专业数据,例如医学图像、基因组学,这类专业知识信息在通用多模态大模型的训练中通常不存在。

来自主题: AI资讯
4935 点击    2024-05-18 19:09
HuggingFace教你怎样做出SOTA视觉模型

HuggingFace教你怎样做出SOTA视觉模型

HuggingFace教你怎样做出SOTA视觉模型

前有OpenAI的GPT-4o,后有谷歌的系列王炸,先进的多模态大模型接连炸场。

来自主题: AI技术研报
10056 点击    2024-05-17 17:49
国内外140+大模型、8万+考题测评结果出炉!智源评测体系出品

国内外140+大模型、8万+考题测评结果出炉!智源评测体系出品

国内外140+大模型、8万+考题测评结果出炉!智源评测体系出品

2024年5月17日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

来自主题: AI资讯
9813 点击    2024-05-17 17:25
一线创业者圆桌讨论:多模态 AI 的创业机会在于「有用」

一线创业者圆桌讨论:多模态 AI 的创业机会在于「有用」

一线创业者圆桌讨论:多模态 AI 的创业机会在于「有用」

多模态 AI 无疑是今年大模型的发展重点之一,Sora、Midjourney、Suno 等文生视频、文生图、文生音乐赛道的代表产品也是用户的关注热点。

来自主题: AI资讯
7129 点击    2024-05-13 09:37
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?

2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力,成为技术新浪潮。

来自主题: AI技术研报
7353 点击    2024-05-10 23:32
智子引擎发布多模态大模型 Awaker:MOE、自主更新、写真视频效果优于 Sora

智子引擎发布多模态大模型 Awaker:MOE、自主更新、写真视频效果优于 Sora

智子引擎发布多模态大模型 Awaker:MOE、自主更新、写真视频效果优于 Sora

在 4 月 27 日召开的中关村论坛通用人工智能平行论坛上,人大系初创公司智子引擎隆重发布全新的多模态大模型 Awaker 1.0。

来自主题: AI资讯
10235 点击    2024-05-01 12:21