AI资讯新闻榜单内容搜索-多模态

准确率不足20%，GPT-4V/Gemini竟看不懂漫画！首个图像序列基准测试开源

马里兰大学联合北卡教堂山发布首个专为多模态大语言模型（MLLM）设计的图像序列的基准测试Mementos，涵盖了真实世界图像序列、机器人图像序列，以及动漫图像序列，用4761个多样化图像序列的集合，全面测试MLLM对碎散图像序列的推理能力！

来自主题: AI技术研报

3644 点击 2024-01-31 11:19

ICLR 2024｜把图像视为外语，快手、北大多模态大模型媲美DALLE-3

动态视觉分词统一图文表示，快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。

来自主题: AI技术研报

6834 点击 2024-01-30 13:36

更适合中文LMM体质的基准CMMMU来了：超过30个细分学科，12K专家级题目

近期，随着多模态大模型（LMM）的能力不断进步，评估 LMM 性能的需求也日益增长。与此同时，在中文环境下评估 LMM 的高级知识和推理能力的重要性更加突出。

来自主题: AI技术研报

6993 点击 2024-01-28 18:14

WebVoyager：借助强大多模态模型，开创全新的网络智能体 [译]

借助强大多模态模型，开创全新的网络智能体 Hongliang He1,3∗, Wenlin Yao2, Kaixin Ma2, Wenhao Yu2, Yong Dai2, Hongming Zhang2, Zhenzhong Lan3, Dong Yu2 1 浙江大学，2 腾讯 AI 实验室，3 西湖大学

来自主题: AI技术研报

11053 点击 2024-01-28 12:29

年轻人的第一个多模态大模型：1080Ti轻松运行，已开源在线可玩

一款名为Vary-toy的“年轻人的第一个多模态大模型”来了！模型大小不到2B，消费级显卡可训练，GTX1080ti 8G的老显卡轻松运行。

来自主题: AI技术研报

4355 点击 2024-01-27 12:19

顶流Mamba竟遭ICLR拒稿，学者集体破防变????，LeCun都看不下去了

一项ICLR拒稿结果让AI研究者集体破防，纷纷刷起小丑符号。争议论文为Transformer架构挑战者Mamba，开创了大模型的一个新流派。发布两个月不到，后续研究MoE版本、多模态版本等都已跟上。

来自主题: AI资讯

6315 点击 2024-01-27 10:57

多模态大模型，阿里通义千问能和GPT-4V掰手腕了

通义千问的图像推理能力，最近有了大幅提升。

来自主题: AI资讯

11399 点击 2024-01-26 13:56

中文性能反超VLM顶流GPT-4V，阿里Qwen-VL超大杯限免！看图秒写编程视觉难题一眼辨出

多模态大模型将是AI下一个爆点。最近，通义千问VLM模型换新升级，超大杯性能堪比GPT-4V。最最重要的是，还能限时免费用。

来自主题: AI资讯

9445 点击 2024-01-26 13:17

首个通用双向Adapter多模态目标追踪方法BAT，入选AAAI 2024

目标跟踪是计算机视觉的一项基础视觉任务，由于计算机视觉的快速发展，单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性，我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷，以实现复杂环境下全天候目标跟踪。

来自主题: AI技术研报

11009 点击 2024-01-24 14:10

世界顶尖多模态大模型开源！又是零一万物，又是李开复

领跑中英文两大权威榜单，李开复零一万物交出多模态大模型答卷！

来自主题: AI技术研报

4887 点击 2024-01-22 15:37