AI TNT— 让一部分先用AI实现商业化

马里兰大学联合北卡教堂山发布首个专为多模态大语言模型（MLLM）设计的图像序列的基准测试Mementos，涵盖了真实世界图像序列、机器人图像序列，以及动漫图像序列，用4761个多样化图像序列的集合，全面测试MLLM对碎散图像序列的推理能力！

来自主题: AI技术研报

1305 点击 2024-01-31 11:19

动态视觉分词统一图文表示，快手与北大合作提出基座模型 LaVIT 刷榜多模态理解与生成任务。

来自主题: AI技术研报

4713 点击 2024-01-30 13:36

目标跟踪是计算机视觉的一项基础视觉任务，由于计算机视觉的快速发展，单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性，我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷，以实现复杂环境下全天候目标跟踪。

来自主题: AI技术研报

9021 点击 2024-01-24 14:10

多模态大模型GPT-4V也会「有眼无珠」。UC San Diego纽约大学研究人员提出全新V*视觉搜索算法逆转LLM弱视觉宿命。

来自主题: AI资讯

4641 点击 2024-01-20 15:01

近日，艾伦人工智能研究所发布了Unified-IO 2，——第一代Unified-IO曾预测了GPT-4等模型的能力，所以我们可以从新一代的模型中一窥GPT-5的真面目

来自主题: AI资讯

7923 点击 2024-01-09 14:26

最强的全能多模态模型来了！就在近日，智源研究院重磅发布了开源界的「Gemini」——Emu2，一口气刷新多项SOTA。

来自主题: AI资讯

7031 点击 2023-12-27 15:12

由南洋理工华人团队新提出的80亿参数多模态大模型OtterHD，不仅可以搞定让GPT-4V都发愁的难题，甚至还可以数出来《清明上河图》（局部）里到底有多少只骆驼！

来自主题: AI资讯

8713 点击 2023-11-27 16:09

在 10 月 28 日举办的 CNCC 2023「超智融合 AI 大模型应用落地发展论坛」上，智子引擎发布了「元乘象 Chatimg3.0」，展示了多模态通用生成模型「元乘象 Chatimg3.0」的最新进展与落地探索。

来自主题: AI资讯

5477 点击 2023-10-29 23:07