AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
通向AGI的关键拼图!首篇多模态大模型「音频推理」综述出炉,万字拆解四大前沿路径

通向AGI的关键拼图!首篇多模态大模型「音频推理」综述出炉,万字拆解四大前沿路径

通向AGI的关键拼图!首篇多模态大模型「音频推理」综述出炉,万字拆解四大前沿路径

想象这样一个惬意的周末: 空调带来阵阵凉意,你靠在沙发上看书,突然耳边传来“哒哒哒”的小碎步声,接着,玄关门边传来了一阵清脆、略带急切的“呜呜”声,还伴随着爪尖轻轻扒拉木门的声响。

来自主题: AI技术研报
5565 点击    2026-06-12 10:02
谷歌Gemma4-12B怎么用最好?16G显存轻薄本也能跑起本地多模态SubAgent

谷歌Gemma4-12B怎么用最好?16G显存轻薄本也能跑起本地多模态SubAgent

谷歌Gemma4-12B怎么用最好?16G显存轻薄本也能跑起本地多模态SubAgent

过去一年,开源模型的发布节奏已经快到让人麻木。每次发布,伴随的永远是一组跑分、一张能力雷达图,以及几个“超越某某”的结论。

来自主题: AI技术研报
7817 点击    2026-06-11 10:18
一件衣服「隐身」可见光-热成像检测器,清华多模态对抗新方法

一件衣服「隐身」可见光-热成像检测器,清华多模态对抗新方法

一件衣服「隐身」可见光-热成像检测器,清华多模态对抗新方法

清华大学提出一种新型物理对抗方法,利用特殊服装同时干扰可见光和热成像检测。这种服装通过非重叠设计和三维建模优化,可有效躲避RGB-T检测器,促进系统安全性研究。

来自主题: AI技术研报
7643 点击    2026-06-09 09:37
重写《给阿嬷的情书》结局:哈工大张民团队联合阿里开源全流程AI多智能体导演框架VideoClaw

重写《给阿嬷的情书》结局:哈工大张民团队联合阿里开源全流程AI多智能体导演框架VideoClaw

重写《给阿嬷的情书》结局:哈工大张民团队联合阿里开源全流程AI多智能体导演框架VideoClaw

早在 2023 年大模型快速发展期,哈工大张民教授立知大模型团队已开展多模态大模型驱动的视频内容创作智能体研究,并全球首发开源了电影制作智能体 FilmAgent 与动画片生成智能体 Anim-Director,受到国内外智能体研究者与文艺创作者的广泛关注。

来自主题: AI技术研报
7426 点击    2026-06-07 10:51
戴盟机器人完成亿元融资,阿里通义多模态大牛原玮浩加盟攻关物理世界模型

戴盟机器人完成亿元融资,阿里通义多模态大牛原玮浩加盟攻关物理世界模型

戴盟机器人完成亿元融资,阿里通义多模态大牛原玮浩加盟攻关物理世界模型

具身智能公司戴盟机器人(Daimon Robotics)新近完成亿元A轮融资,本轮融资由汇川产投和中国电信联合投资。与此同时量子位还获悉了关于这家公司的另一则消息——阿里通义实验室前多模态研究专家原玮浩加入戴盟,担任首席AI科学家。

来自主题: AI资讯
8835 点击    2026-06-04 10:50
重磅!谷歌开源Gemma 4 12B:统一的、无编码器的多模态模型,16G内存笔记本就可以跑

重磅!谷歌开源Gemma 4 12B:统一的、无编码器的多模态模型,16G内存笔记本就可以跑

重磅!谷歌开源Gemma 4 12B:统一的、无编码器的多模态模型,16G内存笔记本就可以跑

刚刚,谷歌DeepMind发布了Gemma 4 12B。一句话概括这个模型的定位:把原本需要高端服务器才能跑的多模态智能,装进你的笔记本电脑里。它填补的是Gemma家族里一个关键空缺:比边缘端的E4B更强,比26B混合专家模型(MoE)更轻。而且在整个Gemma 4系列里,它是第一个支持原生音频输入的中等规模模型。

来自主题: AI资讯
9031 点击    2026-06-04 09:46
多模态模型终于不用「抽帧看世界」?LLaVA-OneVision-2.0全开源全帧率技术解读

多模态模型终于不用「抽帧看世界」?LLaVA-OneVision-2.0全开源全帧率技术解读

多模态模型终于不用「抽帧看世界」?LLaVA-OneVision-2.0全开源全帧率技术解读

由格灵深瞳灵感实验室主导研发的 LLaVA-OneVision-2.0,是一款面向下一代感知智能的视觉语言大模型。团队充分利用视频 Codec 流和自研 OneVision-Encoder,实现跨帧、跨事件的增量观测和连续证据流建模。本文将详细介绍模型架构、训练方法与能力验证,展示该技术在视频理解、空间推理和目标追踪等任务中的应用潜力。

来自主题: AI技术研报
6022 点击    2026-06-03 15:03
阿里通义千问发布多模态智能体模型Qwen3.7-Plus,让AI从“读懂世界”,走向“动手完成任务”。

阿里通义千问发布多模态智能体模型Qwen3.7-Plus,让AI从“读懂世界”,走向“动手完成任务”。

阿里通义千问发布多模态智能体模型Qwen3.7-Plus,让AI从“读懂世界”,走向“动手完成任务”。

今天,阿里通义千问发布多模态智能体模型Qwen3.7-Plus。相比传统“看图说话”式多模态模型,Qwen3.7-Plus在识别图像的基础上,进一步打通界面感知、工具调用、代码生成和任务交付,让AI从“读懂世界”,走向“动手完成任务”。

来自主题: AI资讯
9183 点击    2026-06-02 21:40
晚点独家丨字节 Seed 架构调整:周畅管理范围扩大,具身业务纳入核心

晚点独家丨字节 Seed 架构调整:周畅管理范围扩大,具身业务纳入核心

晚点独家丨字节 Seed 架构调整:周畅管理范围扩大,具身业务纳入核心

独家获悉,字节跳动多模态负责人周畅管理范围再次扩大,原由李航负责的 Seed Robotics 团队已向周畅汇报月余,李航现以顾问身份负责学术合作方向。字节也正在招聘具身智能技术负责人,负责机器人业务整体规划,职级定位为 L8,对标阿里 P10-P11,将向周畅汇报。该岗位候选人主要来自头部具身智能创业公司技术负责人。

来自主题: AI资讯
8727 点击    2026-06-02 21:23