AI资讯新闻榜单内容搜索-多模态大模型

通用端到端OCR模型开源，拒绝多模态大模型降维打击

在AI-2.0时代，OCR模型的研究难道到头了吗！？

来自主题: AI资讯

7318 点击 2024-09-10 14:26

让大模型能听会说，国内机构开源全球首个端到端语音对话模型Mini-Omni

本文出自启元世界多模态算法组，共同一作是来自清华大学的一年级硕士生谢之非与启元世界多模态负责人吴昌桥，研究兴趣为多模态大模型、LLM Agents 等。本论文上线几天内在 github 上斩获 1000+ 星标。

来自主题: AI技术研报

7384 点击 2024-09-07 11:04

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

近年来，大模型在人工智能领域掀起了一场革命，各种文本、图像、多模态大模型层出不穷，已经深深地改变了人们的工作和生活方式。

来自主题: AI技术研报

7197 点击 2024-09-04 23:24

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

新的最强开源多模态大模型来了！

来自主题: AI技术研报

7690 点击 2024-08-30 15:24

国内首个自研MoE多模态大模型，揭秘腾讯混元多模态理解

以 GPT 为代表的大型语言模型预示着数字认知空间中通用人工智能的曙光。这些模型通过处理和生成自然语言，展示了强大的理解和推理能力，已经在多个领域展现出广泛的应用前景。无论是在内容生成、自动化客服、生产力工具、AI 搜索、还是在教育和医疗等领域，大型语言模型都在不断推动技术的进步和应用的普及。

来自主题: AI资讯

9270 点击 2024-08-23 17:27

Beidi Chen陈贝迪独家 | 高效长序列生成之路：CPU & GPU —— 算法、系统与硬件的 co-design

本期我们邀请到了纽约大学计算机科学院博士童晟邦带来【多模态大模型：视觉为中心的探索】的主题分享。

来自主题: AI技术研报

10720 点击 2024-08-21 10:39

4秒看完2小时电影！阿里发布通用多模态大模型mPLUG-Owl3 | 开源

4秒看完2小时电影，阿里团队新成果正式亮相——

来自主题: AI资讯

5586 点击 2024-08-19 16:48

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

只用提示词，多模态大模型就能更懂场景中的人物关系了。

来自主题: AI技术研报

9433 点击 2024-08-13 16:56

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

李飞飞老师提出了空间智能 (Spatial Intelligence) 这一概念，作为回应，来自上交、斯坦福、智源、北大、牛津、东大的研究者提出了空间大模型 SpatialBot，并提出了训练数据 SpatialQA 和测试榜单 SpatialBench，尝试让多模态大模型在通用场景和具身场景下理解深度、理解空间。

来自主题: AI技术研报

9715 点击 2024-08-07 14:12

GPT-4o弱点暴露了，PDF长文档阅读理解仅45分

图文并茂的PDF长文档在日常生活中无处不在。过去人们通常使用OCR，layout detection等方法对PDF长文档进行解析。但随着多模态大模型的发展，PDF长文档的端到端阅读理解成为了可能。

来自主题: AI技术研报

9634 点击 2024-08-03 14:38

AI资讯新闻榜单内容搜索-多模态大模型

通用端到端OCR模型开源，拒绝多模态大模型降维打击

让大模型能听会说，国内机构开源全球首个端到端语音对话模型Mini-Omni

大模型走向物理世界，TeleAI 发布大模型驱动的具身智能综述，覆盖300篇文献

超越GPT-4o！阿里发布最强开源多模态模型Qwen2-VL，支持实时视频对话

国内首个自研MoE多模态大模型，揭秘腾讯混元多模态理解

Beidi Chen陈贝迪 独家 | 高效长序列生成之路：CPU & GPU —— 算法、系统与硬件的 co-design

4秒看完2小时电影！阿里发布通用多模态大模型mPLUG-Owl3 | 开源

北大王选所：让多模态大模型更懂人类在做什么｜ECCV 2024

李飞飞「空间智能」之后，上交、智源、北大等提出空间大模型SpatialBot

GPT-4o弱点暴露了，PDF长文档阅读理解仅45分

Beidi Chen陈贝迪独家 | 高效长序列生成之路：CPU & GPU —— 算法、系统与硬件的 co-design