AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
精准识别「界门纲目科属种」!北大彭宇新团队用细粒度树先验提升泛化,破解生物类别分层识别难题

精准识别「界门纲目科属种」!北大彭宇新团队用细粒度树先验提升泛化,破解生物类别分层识别难题

精准识别「界门纲目科属种」!北大彭宇新团队用细粒度树先验提升泛化,破解生物类别分层识别难题

一张蓝锥嘴雀的图片,你能认出它是“鸟”,但能认出它是“鸟纲-雀形目-唐纳雀科-锥嘴雀属-蓝锥嘴雀”吗?

来自主题: AI技术研报
6171 点击    2026-03-23 09:52
突发!腾讯AI Lab撤销,部分人员并入混元

突发!腾讯AI Lab撤销,部分人员并入混元

突发!腾讯AI Lab撤销,部分人员并入混元

今天,机器之心获悉,腾讯 TEG 技术工程事业群组织架构发生了部分调整,AI Lab 被撤销,蒋杰不再担任 AI Lab 主任,但其他管理职责不变。此次调整过后,原 AI Lab 部分人员调整至混元团队向姚顺雨汇报。产学研合作中心保留。多模态部负责人向 TEG 总裁卢山汇报。

来自主题: AI资讯
8213 点击    2026-03-21 09:32
5B参数+4060Ti,10秒出图,全流程开源可复现!补齐统一多模态生成编辑的开源版图,让高质量图像生成真正变得更轻量、更普及

5B参数+4060Ti,10秒出图,全流程开源可复现!补齐统一多模态生成编辑的开源版图,让高质量图像生成真正变得更轻量、更普及

5B参数+4060Ti,10秒出图,全流程开源可复现!补齐统一多模态生成编辑的开源版图,让高质量图像生成真正变得更轻量、更普及

统一多模态生成编辑模型,正在走向“重器化”

来自主题: AI技术研报
9843 点击    2026-03-18 16:15
500行极简开源框架,硬刚GPT/Gemini视觉极限!

500行极简开源框架,硬刚GPT/Gemini视觉极限!

500行极简开源框架,硬刚GPT/Gemini视觉极限!

多模态模型代码写得像老司机,却在数手指、量柱子时频频翻车?UniPat AI用五百行代码打造的SWE-Vision,让模型「掏出Python尺子」自我验证,一举拿下五大视觉相关基准SOTA。

来自主题: AI资讯
7787 点击    2026-03-16 15:08
从多模态大模型中「拆」出音频向量模型

从多模态大模型中「拆」出音频向量模型

从多模态大模型中「拆」出音频向量模型

Google 最近发了 Gemini Embedding 2,他们第一个原生多模态向量模型。文本、图像、视频、音频、文档,全部映射到同一个 3072 维向量空间。这是 Omni Embedding(全模态向量模型)的大趋势:一个架构吃下所有模态,从 jina-embeddings-v4 到 Omni-Embed-Nemotron 再到 Omni-5,大家都在往这个方向收敛。

来自主题: AI技术研报
5329 点击    2026-03-16 15:06
ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案

ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案

ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案

近年来,多模态大模型(Multimodal Large Language Models, MLLMs)正在迅速改变人工智能的能力边界。从图像理解到视频分析,从语音对话到复杂推理,大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答:这些模型真的能够理解人类情绪吗?

来自主题: AI技术研报
6487 点击    2026-03-16 14:27
UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

多模态大模型在代码能力上进步惊人,但在基础视觉任务上却频繁失误。UniPat AI 构建了一个极简的视觉智能体框架 ——SWE-Vision,让模型可以编写并执行 Python 代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中,SWE-Vision 均达到了当前最优水平。

来自主题: AI技术研报
9217 点击    2026-03-16 14:25