AI TNT— 让一部分先用AI实现商业化

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: VLM

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

为边缘开发由生成式 AI 赋能的视觉 AI 智能体

视觉语言模型（VLM）这项 AI 技术所取得的突破令人振奋。它提供了一种更加动态、灵活的视频分析方法。VLM 使用户能够使用自然语言与输入的图像和视频进行交互，因此更加易于使用且更具适应性。这些模型可以通过 NIM 在 NVIDIA Jetson Orin 边缘 AI 平台或独立 GPU 上运行。本文将探讨如何构建基于 VLM 的视觉 AI 智能体，这些智能体无论是在边缘抑或是在云端都能运行。

来自主题: AI技术研报

6617 点击 2024-09-04 16:04

支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频

支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。

来自主题: AI技术研报

8730 点击 2024-08-21 14:20

对话硅谷公司K-Scale：在车库里对抗烧钱的巨头们，带全人类一起造10亿机器人

对话硅谷公司K-Scale：在车库里对抗烧钱的巨头们，带全人类一起造10亿机器人

第一次拜访K-Scale Labs的时候，好像走进了美剧《硅谷》的拍摄现场。

来自主题: AI资讯

6826 点击 2024-07-31 15:06

VLM集体「失明」？视力测试惨败，GPT-4o、Claude 3.5全都不及格

VLM集体「失明」？视力测试惨败，GPT-4o、Claude 3.5全都不及格

视觉大语言模型在最基础的视觉任务上集体「翻车」，即便是简单的图形识别都能难倒一片，或许这些最先进的VLM还没有发展出真正的视觉能力？

来自主题: AI技术研报

8069 点击 2024-07-16 19:43

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

当前的视觉语言模型（VLM）主要通过 QA 问答形式进行性能评测，而缺乏对模型基础理解能力的评测，例如 detail image caption 性能的可靠评测手段。

来自主题: AI技术研报

8560 点击 2024-07-13 20:01

这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于「视力」测试

这些VLM竟都是盲人？GPT-4o、Sonnet-3.5相继败于「视力」测试

四大 VLM，竟都在盲人摸象？

来自主题: AI技术研报

8947 点击 2024-07-11 20:26

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

近些年，语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型（LLM）有能力解决多种不同的任务，它们也正在成为越来越常用的工具。

来自主题: AI技术研报

8061 点击 2024-06-11 10:08

开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

开源多模态SOTA再易主，19B模型比肩GPT-4v，16G显存就能跑

开源多模态SOTA模型再易主！Hugging Face开发者大使刚刚把王冠交给了CogVLM2，来自大模型创业公司智谱AI。CogVLM2甚至在3项基准测试上超过GPT-4v和Gemini Pro，还不是超过一点，是大幅领先。

来自主题: AI资讯

6003 点击 2024-05-22 18:29

数据更多更好还是质量更高更好？这项研究能帮你做出选择

数据更多更好还是质量更高更好？这项研究能帮你做出选择

当计算预算低时，重复使用高质量数据更好；当不差钱时，使用大量数据更有利。

来自主题: AI技术研报

6294 点击 2024-05-20 18:52

COLING24｜自适应剪枝让多模态大模型加速2-3倍，哈工大等推出SmartTrim

COLING24｜自适应剪枝让多模态大模型加速2-3倍，哈工大等推出SmartTrim

哈工大联合度小满推出针对多模态模型的自适应剪枝算法 SmartTrim，论文已被自然语言处理顶级会议 COLING 24 接收。

来自主题: AI技术研报

3310 点击 2024-03-17 18:56

上一页当前第1页,共2页下一页