AI资讯新闻榜单内容搜索-多模态大模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态大模型
ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案

ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案

ICLR 2026|多模态大模型真的理解情绪吗?MME-Emotion给出了系统答案

近年来,多模态大模型(Multimodal Large Language Models, MLLMs)正在迅速改变人工智能的能力边界。从图像理解到视频分析,从语音对话到复杂推理,大模型正在逐步具备类似人类的综合感知能力。但一个关键问题仍然没有得到充分回答:这些模型真的能够理解人类情绪吗?

来自主题: AI技术研报
6943 点击    2026-03-16 14:27
UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

UniPat AI开源SWE-Vision:五百行代码打造SOTA视觉智能体!

多模态大模型在代码能力上进步惊人,但在基础视觉任务上却频繁失误。UniPat AI 构建了一个极简的视觉智能体框架 ——SWE-Vision,让模型可以编写并执行 Python 代码来处理和验证自己的视觉判断。在五个主流视觉基准测试中,SWE-Vision 均达到了当前最优水平。

来自主题: AI技术研报
9652 点击    2026-03-16 14:25
独家|梁文锋将携DeepSeek V4撞上姚顺雨

独家|梁文锋将携DeepSeek V4撞上姚顺雨

独家|梁文锋将携DeepSeek V4撞上姚顺雨

我们独家获悉,外界千呼万唤的DeepSeek-V4将于4月正式上线。作为梁文锋打磨已久的多模态大模型,DeepSeek-V4除了在Coding能力上跃升之外,还将在LTM(long term memory长期记忆)上取得突破。

来自主题: AI资讯
10923 点击    2026-03-12 17:20
CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作

CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作

CVPR 2026|清华联合美团推出3DThinker,首个用3D意象思考的工作

大家是否有这样的感觉?给定几张场景中拍摄的图片,往往能够在脑海中想象出这个场景的三维布局,然而当前的多模态大模型还停留于纯文本或者 2D 视觉的推理表示,限制了图像中隐含几何结构的表达能力。

来自主题: AI技术研报
8799 点击    2026-03-11 09:25
数据邪修大法好:仅用文本数据就能预训练多模态大模型

数据邪修大法好:仅用文本数据就能预训练多模态大模型

数据邪修大法好:仅用文本数据就能预训练多模态大模型

没有图片,也能预训练多模态大模型?在多模态大模型(MLLM)的研发中,行业内长期遵循着一个昂贵的共识:没有图文对(Image-Text Pairs),就没有多模态能力。

来自主题: AI技术研报
8650 点击    2026-03-03 14:25
第一次,多模态大模型学会边看边听,Meta新作性能暴涨113%

第一次,多模态大模型学会边看边听,Meta新作性能暴涨113%

第一次,多模态大模型学会边看边听,Meta新作性能暴涨113%

Meta联合多所高校发布首个可规模化自动生成第一视角音视频理解数据的引擎EgoAVU ,让多模态大模型首次真正「听懂世界」。

来自主题: AI技术研报
9092 点击    2026-02-28 15:26