AI资讯新闻榜单内容搜索-VLM

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: VLM
游戏bug帮大模型学物理!准确率超GPT4o近4个百分点

游戏bug帮大模型学物理!准确率超GPT4o近4个百分点

游戏bug帮大模型学物理!准确率超GPT4o近4个百分点

融合物理知识的大型视频语言模型PhysVLM,开源了! 它不仅在 PhysGame 基准上展现出最先进的性能,还在通用视频理解基准上(Video-MME, VCG)表现出领先的性能。

来自主题: AI技术研报
7164 点击    2024-12-06 17:45
比较AI编码平台:用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

比较AI编码平台:用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

比较AI编码平台:用于关键视觉生成系统的 Cursor、V0、Bolt.new 和 Windsurf

随着基础模型(如VLMs,例如Minimax、Qwen-V)和尖端图像生成技术(如Flux 1.1)的快速发展,我们正进入一个创造性可能性的新纪元。结合像T5这样的模型以增强对潜在空间中文本提示的理解,这些工具使得生产广告级别的关键视觉(KVs)成为可能,且具有显著的真实感。

来自主题: AI技术研报
9322 点击    2024-11-29 09:53
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超越闭源模型

北大等出品,首个多模态版o1开源模型来了—— 代号LLaVA-o1,基于Llama-3.2-Vision模型打造,超越传统思维链提示,实现自主“慢思考”推理。 在多模态推理基准测试中,LLaVA-o1超越其基础模型8.9%,并在性能上超越了一众开闭源模型。

来自主题: AI技术研报
5311 点击    2024-11-19 21:01
导航、采矿、建造,北大这个新智能体把《我的世界》玩透了

导航、采矿、建造,北大这个新智能体把《我的世界》玩透了

导航、采矿、建造,北大这个新智能体把《我的世界》玩透了

在游戏和机器人研究领域,让智能体在开放世界环境中实现有效的交互,一直是令人兴奋却困难重重的挑战。

来自主题: AI技术研报
3739 点击    2024-10-30 13:51
英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升

英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升

英伟达开源NVLM 1.0屠榜多模态!纯文本性能不降反升

NVLM 1.0系列多模态大型语言模型在视觉语言任务上达到了与GPT-4o和其他开源模型相媲美的水平,其在纯文本性能甚至超过了LLM骨干模型,特别是在文本数学和编码基准测试中,平均准确率提高了4.3个百分点。

来自主题: AI技术研报
7631 点击    2024-09-24 12:27
在线可玩!智谱开源图生视频模型,网友直呼Amazing!

在线可玩!智谱开源图生视频模型,网友直呼Amazing!

在线可玩!智谱开源图生视频模型,网友直呼Amazing!

刚刚,智谱把清影背后的图生视频模型CogVideoX-5B-I2V给开源了!(在线可玩) 一起开源的还有它的标注模型cogvlm2-llama3-caption。

来自主题: AI资讯
3823 点击    2024-09-19 14:54
突破医疗影像分析:AI如何通过语言引导实现自我学习与精准分类

突破医疗影像分析:AI如何通过语言引导实现自我学习与精准分类

突破医疗影像分析:AI如何通过语言引导实现自我学习与精准分类

本文提出了一种名为MedUnA的方法,旨在解决医疗图像分类中因缺乏标注数据而导致的监督学习挑战。MedUnA利用视觉-语言模型(VLMs)中的视觉与文本对齐特性,通过无监督学习来适应医疗图像分类任务。

来自主题: AI资讯
3922 点击    2024-09-10 14:39
为边缘开发由生成式 AI 赋能的视觉 AI 智能体

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

视觉语言模型(VLM)这项 AI 技术所取得的突破令人振奋。它提供了一种更加动态、灵活的视频分析方法。VLM 使用户能够使用自然语言与输入的图像和视频进行交互,因此更加易于使用且更具适应性。这些模型可以通过 NIM 在 NVIDIA Jetson Orin 边缘 AI 平台或独立 GPU 上运行。本文将探讨如何构建基于 VLM 的视觉 AI 智能体,这些智能体无论是在边缘抑或是在云端都能运行。

来自主题: AI技术研报
7482 点击    2024-09-04 16:04
支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。

来自主题: AI技术研报
9382 点击    2024-08-21 14:20