AI资讯新闻榜单内容搜索-多模态大模型

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 多模态大模型

LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存

LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存

LLaVA-Mini来了！每张图像所需视觉token压缩至1个，兼顾效率内存

以 GPT-4o 为代表的实时交互多模态大模型（LMMs）引发了研究者对高效 LMM 的广泛关注。现有主流模型通过将视觉输入转化为大量视觉 tokens，并将其嵌入大语言模型（LLM）上下文来实现视觉信息理解。

来自主题: AI技术研报

3929 点击 2025-02-06 15:26

Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

Deepseek多模态大模型Janus-Pro-7B在医疗领域的简单应用可行性测试

就在除夕前的晚上（2025 年 1 月 27 日），Deepseek 发布了多模态模型 Janus-Pro-7B，该模型在图像生成和多模态理解方面都超过了OpenAI的DALL-E 3（虽然也一般般），我相信能文生图功能一定很优秀了，今天搞点特殊的，测试下图像理解能力对专业的医学影像有没有应用的可行性，以下是常见的五种医学影像测试。

来自主题: AI资讯

8488 点击 2025-02-01 19:58

新范式，自回归大一统！北大提出VARGPT：单一框架实现视觉「理解」与「生成」

新范式，自回归大一统！北大提出VARGPT：单一框架实现视觉「理解」与「生成」

新范式，自回归大一统！北大提出VARGPT：单一框架实现视觉「理解」与「生成」

VARGPT是一种新型多模态大模型，能够在单一框架内实现视觉理解和生成任务。通过预测下一个token完成视觉理解，预测下一个scale完成视觉生成，展现出强大的混合模态输入输出能力。

来自主题: AI技术研报

7648 点击 2025-01-28 12:07

贾佳亚团队联合Adobe提出GenProp，物体追踪移除特效样样在行

贾佳亚团队联合Adobe提出GenProp，物体追踪移除特效样样在行

贾佳亚团队联合Adobe提出GenProp，物体追踪移除特效样样在行

论文一作刘少腾，Adobe Research实习生，香港中文大学博士生（DV Lab），师从贾佳亚教授。主要研究方向是多模态大模型和生成模型，包含图像视频的生成、理解与编辑。作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。

来自主题: AI技术研报

5916 点击 2025-01-26 11:39

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

随着语言大模型的成功，视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速，但在长上下文场景下表现却不尽如人意，这一问题严重制约了多模态模型在实际应用中的潜力。

来自主题: AI技术研报

8278 点击 2025-01-15 14:23

阶跃星辰多模态大模型助力茶饮行业：全国数千家“茶百道”门店全面接入

阶跃星辰多模态大模型助力茶饮行业：全国数千家“茶百道”门店全面接入

阶跃星辰多模态大模型助力茶饮行业：全国数千家“茶百道”门店全面接入

茶百道与阶跃星辰已达成深度合作，双方积极探索大模型在茶饮行业的应用场景，通过多模态技术助力智能巡检、AIGC 营销，打造新型数字化门店生产运营方式，为用户带来更加安全、便捷和丰富的消费体验。

来自主题: AI资讯

7769 点击 2025-01-15 09:30

如何高效桥接视觉和语言，字节&中大提出全新多模态大模型连接器ParGo

如何高效桥接视觉和语言，字节&中大提出全新多模态大模型连接器ParGo

如何高效桥接视觉和语言，字节&中大提出全新多模态大模型连接器ParGo

在多模态大语言模型（MLLMs）的发展中，视觉 - 语言连接器作为将视觉特征映射到 LLM 语言空间的关键组件，起到了桥梁作用。

来自主题: AI技术研报

7703 点击 2025-01-12 10:22

2025 AI手机交互体验：它能说会道，有眼有脑，是更聪明更懂你的AI伙伴

2025 AI手机交互体验：它能说会道，有眼有脑，是更聪明更懂你的AI伙伴

2025 AI手机交互体验：它能说会道，有眼有脑，是更聪明更懂你的AI伙伴

终于，5202年了，手机助手也乘着AI的快车，变得越来越好用了！不仅内置了多模态大模型“大脑”，拥有超强的思考和对话能力，还长出了“眼睛”，可以看到屏幕内外的世界。

来自主题: AI资讯

7841 点击 2025-01-09 14:44

前微软亚研院视觉专家胡瀚加入腾讯，负责混元多模态大模型

前微软亚研院视觉专家胡瀚加入腾讯，负责混元多模态大模型

前微软亚研院视觉专家胡瀚加入腾讯，负责混元多模态大模型

1 月 18 日，北京，聊聊 2025 如何加入技术开发？ AI 科技评论消息称，前微软亚洲研究院视觉计算组首席研究员胡瀚，不久前加入腾讯，接替已离职的前腾讯混元大模型技术负责人之一的刘威，负责多模态大模型的研发工作。

来自主题: AI资讯

8909 点击 2025-01-09 10:22

智源王仲远：多模态大模型对产业更加重要，得多模态大模型得天下 | MEET 2025

智源王仲远：多模态大模型对产业更加重要，得多模态大模型得天下 | MEET 2025

智源王仲远：多模态大模型对产业更加重要，得多模态大模型得天下 | MEET 2025

大模型的出现，成了AI第三次浪潮的新拐点。

来自主题: AI资讯

9671 点击 2024-12-31 11:06

上一页当前第10页,共26页下一页