AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
谷歌Gemini 3夜袭全球,暴击GPT-5.1!奥特曼罕见祝贺

谷歌Gemini 3夜袭全球,暴击GPT-5.1!奥特曼罕见祝贺

谷歌Gemini 3夜袭全球,暴击GPT-5.1!奥特曼罕见祝贺

凌晨,谷歌终极杀器Gemini 3重磅来袭,一出手就是Pro顶配版,号称「史上最强推理+多模态+氛围编程」三合一AI战神!基准测试横扫全场,就连GPT-5.1也被斩于马下,AI的下一个时代开启。而且,一上来就是顶配的Gemini 3 Pro——迄今推理最强,多模态理解最强,以及「智能体」+「氛围编程」最强的模型!

来自主题: AI资讯
8251 点击    2025-11-19 10:14
医疗AI智能体全面综述:行业爆发,年增长130%!

医疗AI智能体全面综述:行业爆发,年增长130%!

医疗AI智能体全面综述:行业爆发,年增长130%!

AI智能体正把医疗AI从「看片子」升级成会思考、能行动的「医生搭档」。研究人员发表的最新综述,用通俗语言拆解智能体如何读懂多模态数据、像专家一样规划决策,又能扮演医生、护士、健康管家等多重角色;同时提醒:越智能越危险,必须配套严格评估、隐私保护与伦理护栏,才敢让它走进真实诊疗。

来自主题: AI技术研报
6412 点击    2025-11-19 09:06
Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解

Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解

Lumina-DiMOO:多模态扩散语言模型重塑图像生成与理解

上海人工智能实验室推出了一款革新的多模态生成理解一体化的扩散语言模型 ——Lumina-DiMOO。基于离散扩散建模(Discrete Diffusion Modeling),Lumina-DiMOO 打破了多模态任务之间的壁垒,在同一离散扩散框架下,完成从 文本→图像、图像→图像、图像→文本的全栈能力闭环。

来自主题: AI技术研报
7692 点击    2025-11-17 14:33
VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

长期以来,多模态代码生成(Multimodal Code Generation)的训练严重依赖于特定任务的监督微调(SFT)。尽管这种范式在 Chart-to-code 等单一任务上取得了显著成功 ,但其 “狭隘的训练范围” 从根本上限制了模型的泛化能力,阻碍了通用视觉代码智能(Generalized VIsioN Code Intelligence)的发展 。

来自主题: AI技术研报
8328 点击    2025-11-17 14:32
NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳

NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳

NeurIPS 2025 Spotlight | NYU提出QSVD,仅数学压缩让模型更轻、更快、更稳

在多模态智能浪潮中,视觉语言模型(Vision-Language Models, VLM)已成为连接视觉理解与语言生成的核心引擎。从图像描述、视觉问答到 AI 教育和交互系统,它们让机器能够「看懂世界、说人话」。

来自主题: AI技术研报
8499 点击    2025-11-17 09:53
小度AI眼镜Pro 2299元起售:这次把“超能小度”塞进了39g的眼镜里

小度AI眼镜Pro 2299元起售:这次把“超能小度”塞进了39g的眼镜里

小度AI眼镜Pro 2299元起售:这次把“超能小度”塞进了39g的眼镜里

百度这次又往AI眼镜里狠狠塞了一把“猛料”。刚刚,百度官方发布了全新AI拍摄眼镜——小度AI眼镜Pro,2299元起。这回不光把颜值搞上去了,还把全新发布的多模态AI智能助手「超能小度」塞进了这幅39g重的眼镜里:

来自主题: AI资讯
6976 点击    2025-11-16 13:21
全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考

全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考

全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考

昨天,全球参数量最大的具身智能多模态大模型——Pelican-VL 1.0正式开源。它不仅覆盖了7B到72B级别,能够同时理解图像、视频和语言指令,并将这些感知信息转化为可执行的物理操作。

来自主题: AI资讯
7842 点击    2025-11-15 10:18
破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"

破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"

破解多模态大模型“选择困难症”!内部决策机制首次揭秘:在冲突信息间疯狂"振荡"

多模态大语言模型(MLLMs)在处理来自图像和文本等多种来源的信息时能力强大 。 然而,一个关键挑战随之而来:当这些模态呈现相互冲突的信息时(例如,图像显示一辆蓝色汽车,而文本描述它为红色),MLLM必须解决这种冲突 。模型最终输出与某一模态信息保持一致的行为,称之为“模态跟随”(modality following)

来自主题: AI技术研报
7304 点击    2025-11-14 13:54