AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
深入感知级别图像理解:UniPercept 统一图像美学、质量与结构纹理感知

深入感知级别图像理解:UniPercept 统一图像美学、质量与结构纹理感知

深入感知级别图像理解:UniPercept 统一图像美学、质量与结构纹理感知

尽管多模态大语言模型(MLLMs)在识别「图中有什么」这一语义层面上取得了巨大进步,但在理解「图像看起来怎么样」这一感知层面上仍显乏力。

来自主题: AI技术研报
5751 点击    2026-01-08 15:23
多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

多模态推理新范式!DiffThinker:用扩散模型「画」出推理和答案

在多模态大模型(MLLMs)领域,思维链(CoT)一直被视为提升推理能力的核心技术。然而,面对复杂的长程、视觉中心任务,这种基于文本生成的推理方式正面临瓶颈:文本难以精确追踪视觉信息的变化。形象地说,模型不知道自己想到哪一步了,对应图像是什么状态。

来自主题: AI技术研报
6401 点击    2026-01-08 15:20
开源1万小时具身智能数据,这家公司是为了什么?

开源1万小时具身智能数据,这家公司是为了什么?

开源1万小时具身智能数据,这家公司是为了什么?

想象一下,你正在训练一个未来的家庭机器人。你希望它能像人一样,轻松地叠好一件衬衫,整理杂乱的桌面,甚至系好一双鞋的鞋带。但最大的瓶颈是什么?不是算法,不是硬件,而是数据 —— 海量的、来自真实世界的、双手协同的、长程的、多模态的高质量数据。

来自主题: AI技术研报
9792 点击    2026-01-07 10:16
空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没

空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没

空间智能终极挑战MMSI-Video-Bench来了,顶级大模型全军覆没

空间理解能力是多模态大语言模型(MLLMs)走向真实物理世界,成为 “通用型智能助手” 的关键基础。但现有的空间智能评测基准往往有两类问题:一类高度依赖模板生成,限制了问题的多样性;另一类仅聚焦于某一种空间任务与受限场景,因此很难全面检验模型在真实世界中对空间的理解与推理能力。

来自主题: AI技术研报
7431 点击    2026-01-06 09:50
让AI只丢隐私、不丢本事:科学家实现多模态AI精准遗忘,敏感信息自动隔离

让AI只丢隐私、不丢本事:科学家实现多模态AI精准遗忘,敏感信息自动隔离

让AI只丢隐私、不丢本事:科学家实现多模态AI精准遗忘,敏感信息自动隔离

你有没有想过,如果你和 AI 聊天,无意中把自己的生日、住址或照片告诉了它,这些信息会不会被它记住?以及我们是否可以像删除微信聊天记录一样,让 AI 忘记这些隐私?

来自主题: AI资讯
10315 点击    2026-01-04 16:07
必须得让AI明白,有些不该碰的东西别碰(doge)

必须得让AI明白,有些不该碰的东西别碰(doge)

必须得让AI明白,有些不该碰的东西别碰(doge)

近期,以DeepEyes、Thymes为代表的类o3模型通过调用视觉工具,突破了传统纯文本CoT的限制,在视觉推理任务中取得了优异表现。

来自主题: AI技术研报
8014 点击    2025-12-31 08:29
清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

近日,清华朱军等团队提出了一种统一的多模态生成框架 UniCardio,在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成,为真实场景下的人工智能辅助医疗提供了一种新的解决思路。

来自主题: AI技术研报
8574 点击    2025-12-30 15:14
硅谷宠物情感智能公司Traini获超5000万元融资,加速首款AI智能项圈量产

硅谷宠物情感智能公司Traini获超5000万元融资,加速首款AI智能项圈量产

硅谷宠物情感智能公司Traini获超5000万元融资,加速首款AI智能项圈量产

硅谷宠物情感智能公司Traini宣布已完成超5000万元人民币融资,资金将主要用于多模态情感模型研发、软硬件产品迭代及海外市场扩张。老股东Tao Foundation及小米联合创始人洪峰继续跟投。

来自主题: AI资讯
7835 点击    2025-12-29 09:35
顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布

顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布

顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布

近日,多模态视频理解领域迎来重磅更新!由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布,并已被顶刊 IEEE TPAMI 录用。

来自主题: AI技术研报
9505 点击    2025-12-29 09:07