AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
独家|阶跃星辰Tech Fellow段楠离职,任京东探索研究院视觉与多模态实验室负责人

独家|阶跃星辰Tech Fellow段楠离职,任京东探索研究院视觉与多模态实验室负责人

独家|阶跃星辰Tech Fellow段楠离职,任京东探索研究院视觉与多模态实验室负责人

「市象」获悉,段楠已在其GitHub主页悄然更新履历:现任京东探索研究院视觉与多模态实验室负责人,带领研究团队研发视觉和多模态基础模型。此前,他曾任阶跃星辰Technical Fellow(2024-2025)和微软亚洲研究院自然语言计算团队资深首席研究员和研究经理(2012-2024)。

来自主题: AI资讯
5861 点击    2025-06-12 19:04
AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题

AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题

AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题

豆包大模型1.6惊艳亮相,成为国内首款多模态SOTA模型,256k对话窗口,深度思考最长上下文。它不仅能看会想,还能动手操作GUI,国内最有潜力考清北。

来自主题: AI技术研报
5951 点击    2025-06-12 17:04
全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科

普林斯顿大学AI实验室与复旦大学历史学系联手推出了全球首个聚焦历史研究能力的AI评测基准——HistBench,并同步开发了深度嵌入历史研究场景的AI助手——HistAgent。这一成果不仅填补了人文学科AI测试的空白,更为复杂史料处理与多模态理解建立了系统工具框架。

来自主题: AI资讯
6121 点击    2025-06-12 15:30
CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源

CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源

CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源

我们人类生活在一个充满视觉和音频信息的世界中,近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力,衍生出了多种不同类型的任务,它们分别要求模型具备不同层面的能力。

来自主题: AI技术研报
7426 点击    2025-06-12 11:43
“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节

“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节

“甲方快乐模型”诞生,拿下平面设计新SOTA!多条件一键生成,还能独立调整元素 | 复旦&字节

平面设计师有救了! 复旦大学和字节跳动团队联合提出CreatiDesign新模型,可实现高精度、多模态、可编辑的AI图形设计生成。

来自主题: AI技术研报
6068 点击    2025-06-11 16:18
比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临

比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临

比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临

王劲,香港大学计算机系二年级博士生,导师为罗平老师。研究兴趣包括多模态大模型训练与评测、伪造检测等,有多项工作发表于 ICML、CVPR、ICCV、ECCV 等国际学术会议。

来自主题: AI技术研报
7121 点击    2025-06-10 15:02
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」

视觉语言模型(VLM)正经历从「感知」到「认知」的关键跃迁。 当OpenAI的o3系列通过「图像思维」(Thinking with Images)让模型学会缩放、标记视觉区域时,我们看到了多模态交互的全新可能。

来自主题: AI技术研报
6119 点击    2025-06-10 14:45
CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架

CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架

CVPR 2025 Highlight|AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架

本文第一作者为前阿里巴巴达摩院高级技术专家,现一年级博士研究生满远斌,研究方向为高效多模态大模型推理和生成系统。通信作者为第一作者的导师,UTA 计算机系助理教授尹淼。尹淼博士目前带领 7 人的研究团队,主要研究方向为多模态空间智能系统,致力于通过软件和系统的联合优化设计实现空间人工智能的落地。

来自主题: AI技术研报
7987 点击    2025-06-09 14:51