AI资讯新闻榜单内容搜索-多模态

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 多模态
LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

LLaVA 于 2023 年提出,通过低成本对齐高效连接开源视觉编码器与大语言模型,使「看图 — 理解 — 对话」的多模态能力在开放生态中得以普及,明显缩小了与顶级闭源模型的差距,标志着开源多模态范式的重要里程碑。

来自主题: AI技术研报
9642 点击    2025-10-15 12:12
前端危!Gemini 3内测结果获网友一致好评,“有史以来最强前端开发模型”

前端危!Gemini 3内测结果获网友一致好评,“有史以来最强前端开发模型”

前端危!Gemini 3内测结果获网友一致好评,“有史以来最强前端开发模型”

谷歌下一代旗舰模型Gemini 3未发布便已悄然走红!原因很简单:强,实在是太强了。在国外社交媒体平台𝕏上,一大波网友激动地分享了Gemini 3的内测结果——从曝光的这些案例来看,Gemini 3尤为擅长前端、SVG矢量图生成,而且多模态能力变得更强。

来自主题: AI资讯
8793 点击    2025-10-13 18:42
告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星

在中国科学院计算技术研究所入选NeurIPS 2025的新论文中,提出了SpaceServe的突破性架构,首次将LLM推理中的P/D分离扩展至多模态场景,通过EPD三阶解耦与「空分复用」,系统性地解决了MLLM推理中的行头阻塞难题。

来自主题: AI技术研报
8682 点击    2025-10-13 16:08
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o

2B模型在多个基准位列4B参数以下开源第一。 抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2。

来自主题: AI技术研报
7895 点击    2025-10-13 15:58
全球首个真实世界具身多模态数据集,它石智航交卷,比特斯拉还早6个月

全球首个真实世界具身多模态数据集,它石智航交卷,比特斯拉还早6个月

全球首个真实世界具身多模态数据集,它石智航交卷,比特斯拉还早6个月

全球首个真实世界具身多模态数据集,它来了! 刚刚,它石智航发布全球首个大规模真实世界具身VLTA(Vision-Language-Tactile-Action)多模态数据集World In Your Hands(WIYH)。

来自主题: AI技术研报
10446 点击    2025-10-11 12:06
Code2Video:代码驱动、智能体协同、精准可控的教学视频生成

Code2Video:代码驱动、智能体协同、精准可控的教学视频生成

Code2Video:代码驱动、智能体协同、精准可控的教学视频生成

本研究由新加坡国立大学 ShowLab 团队主导完成。 共一作者 Yanzhe Chen 陈彦哲(博士生)与 Kevin Qinghong Lin 林庆泓(博士生)均来自 ShowLab@NUS,分别聚焦于多模态理解以及智能体(Agent)研究。 项目负责人为新加坡国立大学校长青年助理教授 Mike Zheng Shou 寿政。

来自主题: AI技术研报
9440 点击    2025-10-11 11:30
Qwen要做机器人了:林俊旸官宣成立具身智能团队

Qwen要做机器人了:林俊旸官宣成立具身智能团队

Qwen要做机器人了:林俊旸官宣成立具身智能团队

昨天,阿里通义千问大语言模型负责人林俊旸在社交媒体上官宣,他们在 Qwen 内部组建了一个小型机器人、具身智能团队,同时表示「多模态基础模型正转变为基础智能体,这些智能体可以利用工具和记忆通过强化学习进行长程推理,它们绝对应该从虚拟世界走向物理世界」。

来自主题: AI资讯
9567 点击    2025-10-09 14:24
多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

多模态检索新突破,用软标签打破传统刚性映射约束,全面超越CLIP|AAAI 2026 Oral

基于多模态大模型语义理解能力的统一多模态嵌入模型UniME-V2。该方法首先通过全局检索构建潜在困难负例集,随后创新性地引入“MLLM-as-a-Judge”机制:利用MLLM对查询-候选对进行语义对齐评估,生成软语义匹配分数。

来自主题: AI技术研报
6197 点击    2025-10-06 21:53
Insta360最新全景综述:全景视觉的挑战、方法与未来

Insta360最新全景综述:全景视觉的挑战、方法与未来

Insta360最新全景综述:全景视觉的挑战、方法与未来

本文作者团队来自 Insta360 影石研究院及其合作高校。目前,Insta360 正在面向世界模型、多模态大模型、生成式模型等前沿方向招聘实习生与全职算法工程师,欢迎有志于前沿 AI 研究与落地的同

来自主题: AI技术研报
7651 点击    2025-10-06 14:46
NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

NeurIPS 2025 Spotlight | FSDrive统一VLA和世界模型,推动自动驾驶迈向视觉推理

面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介,易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive(FutureSightDrive)提出 “时空视觉 CoT”(Spatio-Temporal Chain-of-Thought),让模型直接 “以图思考”,用统一的未来图像帧作为中间推理步骤,联合未来场景与感知结果进行可视化推理。

来自主题: AI技术研报
8352 点击    2025-10-06 13:42