AI资讯新闻榜单内容搜索-多模态大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态大模型
GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

GPT-4o再暴露「弱智」缺陷,大模型无一幸免!港中文等发布「视觉听觉」基准AV-Odyssey:26个任务直指死角问题

多模态大模型在听觉上,居然也出现了「9.11>9.8」的现象,音量大小这种简单问题都识别不了!港中文、斯坦福等大学联合发布的AV-Odyssey基准测试,包含26个视听任务,覆盖了7种声音属性,跨越了10个不同领域,确保测试的深度和广度。

来自主题: AI技术研报
6168 点击    2024-12-11 16:46
用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒

以 GPT4V 为代表的多模态大模型(LMMs)在大语言模型(LLMs)上增加如同视觉的多感官技能,以实现更强的通用智能。虽然 LMMs 让人类更加接近创造智慧,但迄今为止,我们并不能理解自然与人工的多模态智能是如何产生的。

来自主题: AI技术研报
6069 点击    2024-12-07 15:02
NeurIPS 2024 | 哈工深提出新型智能体Optimus-1,横扫Minecraft长序列任务

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1,横扫Minecraft长序列任务

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1,横扫Minecraft长序列任务

在 Minecraft 中构造一个能完成各种长序列任务的智能体,颇有挑战性。现有的工作利用大语言模型 / 多模态大模型生成行动规划,以提升智能体执行长序列任务的能力。

来自主题: AI技术研报
5713 点击    2024-12-06 17:58
多模态慢思考:分解原子步骤以解决复杂数学推理

多模态慢思考:分解原子步骤以解决复杂数学推理

多模态慢思考:分解原子步骤以解决复杂数学推理

AtomThink 是一个包括 CoT 注释引擎、原子步骤指令微调、政策搜索推理的全流程框架,旨在通过将 “慢思考 “能力融入多模态大语言模型来解决高阶数学推理问题。量化结果显示其在两个基准数学测试中取得了大幅的性能增长,并能够轻易迁移至不同的多模态大模型当中。

来自主题: AI技术研报
5476 点击    2024-11-30 16:45
让具身智能机器人“下地干活”,「枢途科技」完成数百万天使轮融资

让具身智能机器人“下地干活”,「枢途科技」完成数百万天使轮融资

让具身智能机器人“下地干活”,「枢途科技」完成数百万天使轮融资

枢途科技(深圳)有限公司(以下简称「枢途科技」)近日完成数百万元天使轮融资,本轮由奇绩创坛投资,主要用于多模态大模型训练迭代、通用复合机器人结构升级等技术与产品的研发和交付。

来自主题: AI资讯
7098 点击    2024-11-30 16:05
12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

尽管近期 Qwen2-VL 和 InternVL-2.0 的出现将开源多模态大模型的 SOTA 提升到了新高度,但巨大的计算开销限制了其在很多场景下的应用。

来自主题: AI技术研报
8447 点击    2024-11-28 14:16
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开

以开源极客之姿杀入江湖的Mistral AI,在9月份甩出了自家的首款多模态大模型Pixtral 12B,如今,报告之期已至,技术细节全公开。

来自主题: AI技术研报
5176 点击    2024-11-19 17:15
虚拟女友已没有前途,AI陪伴硬件或许才是未来

虚拟女友已没有前途,AI陪伴硬件或许才是未来

虚拟女友已没有前途,AI陪伴硬件或许才是未来

随着AI大模型在今年618前夕打起价格战,当以GPT-4o为代表的多模态大模型将交互体验也推向更高的层次,也意味着杀手级AI应用或许真的来到了奇点时刻。如今AI行业的创业者已经不再聚焦大模型,而是开始尝试用AI赋能具体的应用场景。

来自主题: AI资讯
3282 点击    2024-11-11 10:17
详解“端到端”下一代模型VLA,通向自动驾驶的关键跳板

详解“端到端”下一代模型VLA,通向自动驾驶的关键跳板

详解“端到端”下一代模型VLA,通向自动驾驶的关键跳板

近期,智驾行业出现了一个融合了视觉、语言和动作的多模态大模型范式——VLA(Vision-Language-Action Model,即视觉-语言-动作模型),拥有更高的场景推理能力与泛化能力。不少智驾人士都将VLA视为当下“端到端”方案的2.0版本。

来自主题: AI资讯
2904 点击    2024-11-09 09:50
结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世

结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世

结构化表格也成模态!浙大TableGPT2开源,最强表格AI问世

现在正是多模态大模型的时代,图像、视频、音频、3D、甚至气象运动都在纷纷与大型语言模型的原生文本模态组合。而浙江大学及其计算机创新技术研究院的一个数十人团队也将结构化数据(包括数据库、数仓、表格、json 等)视为了一种独立模态。

来自主题: AI技术研报
3695 点击    2024-11-07 17:45