AI资讯新闻榜单内容搜索-多模态

刚刚！阿里开源 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型！图片和视频也可以做RAG了～

今天，Qwen 家族新成员+2，我们正式发布 Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列，这两个模型基于 Qwen3-VL 构建，专为多模态信息检索与跨模态理解设计，为图文、视频等混合内容的理解与检索提供统一、高效的解决方案。

来自主题: AI资讯

10851 点击 2026-01-08 23:28

尽管多模态大语言模型（MLLMs）在识别「图中有什么」这一语义层面上取得了巨大进步，但在理解「图像看起来怎么样」这一感知层面上仍显乏力。

来自主题: AI技术研报

7103 点击 2026-01-08 15:23

在多模态大模型（MLLMs）领域，思维链（CoT）一直被视为提升推理能力的核心技术。然而，面对复杂的长程、视觉中心任务，这种基于文本生成的推理方式正面临瓶颈：文本难以精确追踪视觉信息的变化。形象地说，模型不知道自己想到哪一步了，对应图像是什么状态。

来自主题: AI技术研报

7823 点击 2026-01-08 15:20

想象一下，你正在训练一个未来的家庭机器人。你希望它能像人一样，轻松地叠好一件衬衫，整理杂乱的桌面，甚至系好一双鞋的鞋带。但最大的瓶颈是什么？不是算法，不是硬件，而是数据 —— 海量的、来自真实世界的、双手协同的、长程的、多模态的高质量数据。

来自主题: AI技术研报

11219 点击 2026-01-07 10:16

空间理解能力是多模态大语言模型（MLLMs）走向真实物理世界，成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题：一类高度依赖模板生成，限制了问题的多样性；另一类仅聚焦于某一种空间任务与受限场景，因此很难全面检验模型在真实世界中对空间的理解与推理能力。

来自主题: AI技术研报

8822 点击 2026-01-06 09:50

7B量级模型，向来是端侧部署与个人开发者的心头好。

来自主题: AI技术研报

8206 点击 2026-01-05 14:30

你有没有想过，如果你和 AI 聊天，无意中把自己的生日、住址或照片告诉了它，这些信息会不会被它记住？以及我们是否可以像删除微信聊天记录一样，让 AI 忘记这些隐私？

来自主题: AI资讯

11274 点击 2026-01-04 16:07

近期，以DeepEyes、Thymes为代表的类o3模型通过调用视觉工具，突破了传统纯文本CoT的限制，在视觉推理任务中取得了优异表现。

来自主题: AI技术研报

9173 点击 2025-12-31 08:29

近日，清华朱军等团队提出了一种统一的多模态生成框架 UniCardio，在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成，为真实场景下的人工智能辅助医疗提供了一种新的解决思路。

来自主题: AI技术研报

9765 点击 2025-12-30 15:14

硅谷宠物情感智能公司Traini宣布已完成超5000万元人民币融资，资金将主要用于多模态情感模型研发、软硬件产品迭代及海外市场扩张。老股东Tao Foundation及小米联合创始人洪峰继续跟投。

来自主题: AI资讯

9115 点击 2025-12-29 09:35