AI资讯新闻榜单内容搜索-VLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: VLM
超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

来自主题: AI技术研报
6936 点击    2025-10-20 12:19
机器人「看片」自学新技能:NovaFlow从生成视频中提取动作流,实现零样本操控

机器人「看片」自学新技能:NovaFlow从生成视频中提取动作流,实现零样本操控

机器人「看片」自学新技能:NovaFlow从生成视频中提取动作流,实现零样本操控

构建能够在新环境中、无需任何针对性训练就能执行多样化任务的通用机器人,是机器人学领域一个长期追逐的圣杯。近年来,随着大型语言模型(LLMs)和视觉语言模型(VLMs)的飞速发展,许多研究者将希望寄托于视觉 - 语言 - 动作(VLA)模型,期望它们能复刻 LLM 和 VLM 在泛化性上取得的辉煌。

来自主题: AI技术研报
7575 点击    2025-10-13 11:02
国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键

国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键

国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键

游戏理解领域模型LynkSoul VLM v1,在游戏场景中表现显著超过了包括GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flash等一众顶尖闭源模型。背后厂商逗逗AI,亦在现场吸引了不少关注的目光。

来自主题: AI资讯
8284 点击    2025-10-11 17:25
机器人感知大升级!轻量化注入几何先验,成功率提升31%

机器人感知大升级!轻量化注入几何先验,成功率提升31%

机器人感知大升级!轻量化注入几何先验,成功率提升31%

VLA模型通常建立在预训练视觉语言模型(VLM)之上,仅基于2D图像-文本数据训练,缺乏真实世界操作所需的3D空间理解能力。

来自主题: AI技术研报
6731 点击    2025-09-29 14:53
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考

OpenAI o3的多轮视觉推理,有开源平替版了。并且,与先前局限于1-2轮对话的视觉语言模型(VLM)不同,它在训练限制轮数只有6轮的情况下,测试阶段能将思考轮数扩展到数十轮。

来自主题: AI技术研报
8586 点击    2025-09-16 10:02
苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用

苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用

苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用

苹果在 Hugging Face上放大招了!这次直接甩出两条多模态主线:FastVLM主打「快」,字幕能做到秒回;MobileCLIP2主打「轻」,在 iPhone 上也能起飞。更妙的是,模型和Demo已经全开放,Safari网页就能体验。大模型,真·跑上手机了。

来自主题: AI资讯
7959 点击    2025-09-08 11:34
苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?

苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?

苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?

在这场以大型语言模型(LLM)为核心的 AI 浪潮中,苹果似乎一直保持着低调,很少出现在技术报道的前沿。尽管如此,时不时地,该公司也能拿出一些非常亮眼的研究成果,比如能在 iPhone 上直接运行的高效视觉语言模型 FastVLM。

来自主题: AI技术研报
8255 点击    2025-09-03 13:04
真实场景也能批量造「险」!VLM+扩散模型打造真实域自动驾驶极限测试

真实场景也能批量造「险」!VLM+扩散模型打造真实域自动驾驶极限测试

真实场景也能批量造「险」!VLM+扩散模型打造真实域自动驾驶极限测试

浙江大学与哈工大(深圳)联合推出SafeMVDrive,利用扩散模型结合VLM实现批量化多视角真实域的安全关键视频生成。该方法在保持画质与真实感的同时,显著增强了驾驶场景的危险性。生成的场景用于端到端自动驾驶系统的极限压测,可使得模型的碰撞率提升50倍。

来自主题: AI技术研报
6683 点击    2025-08-26 10:47
已经有800万人,开始拥有《Her》里的Samantha

已经有800万人,开始拥有《Her》里的Samantha

已经有800万人,开始拥有《Her》里的Samantha

4 个月前,OpenAI 的 o3 模型凭借视觉推理能力模块和智能的进化,在 AI 创投圈子引起新一轮的震撼与海啸,解锁了一大批新的「套壳」创业机会。正如我们在《谢谢 OpenAI,谢谢 o3,新的「套壳」创业机会来了 | 附 12 个潜力方向》一文中预测的那样,VLM 确实带来了新的创业机会。

来自主题: AI资讯
7775 点击    2025-08-21 14:46
ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

目前的 HOI 检测方法普遍依赖视觉语言模型(VLM),但受限于图像编码器的表现,难以有效捕捉细粒度的区域级交互信息。本文介绍了一种全新的开集人类-物体交互(HOI)检测方法——交互感知提示与概念校准(INP-CC)。

来自主题: AI技术研报
6798 点击    2025-08-20 11:05