AI资讯新闻榜单内容搜索-多模态大模型

Mistral多模态大模型来了！120亿参数，原生支持任意大小/数量图像，公司估值已达420亿

Mistral的多模态大模型来了！Pixtral 12B正式发布，同时具备语言和视觉处理能力。

来自主题: AI资讯

5272 点击 2024-09-12 15:04

通用端到端OCR模型开源，拒绝多模态大模型降维打击

在AI-2.0时代，OCR模型的研究难道到头了吗！？

来自主题: AI资讯

9283 点击 2024-09-10 14:26

让大模型能听会说，国内机构开源全球首个端到端语音对话模型Mini-Omni

本文出自启元世界多模态算法组，共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥，研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。

来自主题: AI技术研报

9727 点击 2024-09-07 11:04

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

近年来，大模型在人工智能领域掀起了一场革命，各种文本、图像、多模态大模型层出不穷，已经深深地改变了人们的工作和生活方式。

来自主题: AI技术研报

9044 点击 2024-09-04 23:24

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

新的最强开源多模态大模型来了！

来自主题: AI技术研报

9883 点击 2024-08-30 15:24

国内首个自研MoE多模态大模型，揭秘腾讯混元多模态理解

以 GPT 为代表的大型语言模型预示着数字认知空间中通用人工智能的曙光。这些模型通过处理和生成自然语言，展示了强大的理解和推理能力，已经在多个领域展现出广泛的应用前景。无论是在内容生成、自动化客服、生产力工具、AI 搜索、还是在教育和医疗等领域，大型语言模型都在不断推动技术的进步和应用的普及。

来自主题: AI资讯

11067 点击 2024-08-23 17:27

Beidi Chen陈贝迪独家 | 高效长序列生成之路：CPU & GPU —— 算法、系统与硬件的 co-design

本期我们邀请到了纽约大学计算机科学院博士童晟邦带来【多模态大模型：视觉为中心的探索】的主题分享。

来自主题: AI技术研报

12648 点击 2024-08-21 10:39

4秒看完2小时电影！阿里发布通用多模态大模型mPLUG-Owl3 | 开源

4秒看完2小时电影，阿里团队新成果正式亮相——

来自主题: AI资讯

7665 点击 2024-08-19 16:48

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

只用提示词，多模态大模型就能更懂场景中的人物关系了。

来自主题: AI技术研报

10956 点击 2024-08-13 16:56

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

李飞飞老师提出了空间智能 (Spatial Intelligence) 这一概念，作为回应，来自上交、斯坦福、智源、北大、牛津、东大的研究者提出了空间大模型 SpatialBot，并提出了训练数据 SpatialQA 和测试榜单 SpatialBench，尝试让多模态大模型在通用场景和具身场景下理解深度、理解空间。

来自主题: AI技术研报

11356 点击 2024-08-07 14:12

AI资讯新闻榜单内容搜索-多模态大模型

Mistral多模态大模型来了！120亿参数，原生支持任意大小/数量图像，公司估值已达420亿

通用端到端OCR模型开源，拒绝多模态大模型降维打击

让大模型能听会说，国内机构开源全球首个端到端语音对话模型Mini-Omni

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

国内首个自研MoE多模态大模型，揭秘腾讯混元多模态理解

Beidi Chen陈贝迪 独家 | 高效长序列生成之路：CPU & GPU —— 算法、系统与硬件的 co-design

4秒看完2小时电影！阿里发布通用多模态大模型mPLUG-Owl3 | 开源

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

Beidi Chen陈贝迪独家 | 高效长序列生成之路：CPU & GPU —— 算法、系统与硬件的 co-design