让 AI 一探究竟：任何行业现在都能搜索和汇总大量视觉数据

5708点击 2024-11-09 10:14

为提高生产力、优化流程和创造更加安全的空间，埃森哲、戴尔科技和联想等公司正在使用全新 NVIDIA AI Blueprint 开发视觉 AI 智能体。

世界各地的企业和公共部门组织都在开发 AI 智能体，以提高工作团队的能力。这些团队依赖于越来越多的设备（包括摄像头、物联网传感器和车辆）所提供的视觉信息。

为了协助他们的工作，NVIDIA 推出了适用于视频搜索和摘要的全新 NVIDIA AI Blueprint。借助该蓝图，几乎所有行业的开发人员都可以构建出能够分析视频和图像内容的视觉 AI 智能体，这些智能体能够回答用户问题、生成摘要并针对特定场景发出警报。

该蓝图是 NVIDIA Metropolis（一套用于构建视觉 AI 应用的开发者工具）的一部分，是一套结合了 NVIDIA 计算机视觉和生成式 AI 技术的可定制工作流。

埃森哲、戴尔科技、联想等全球系统集成商和技术解决方案提供商正在将这一适用于视觉搜索和摘要的 NVIDIA AI Blueprint 带给全球的企业和城市，加速下一代 AI 应用的发展。这些 AI 应用可大幅提高工厂、仓库、商店、机场、交通路口等场所的生产力和安全性。

该 NVIDIA AI Blueprint 于全球智慧城市大会之前发布，为视觉计算开发者提供了一整套专为构建和部署生成式 AI 驱动的智能体而优化的软件。这些由生成式 AI 驱动的智能体能够获取并理解海量实时视频流或数据档案。

用户可以使用自然语言提示，而不是死板的软件代码，来定制这些视觉 AI 智能体，从而降低在各个行业和智慧城市应用中部署虚拟助手的门槛。

让 AI 一探究竟：任何行业现在都能搜索和汇总大量视觉数据

NVIDIA AI Blueprint 充分发挥

视觉语言模型的作用

视觉 AI 智能体由视觉语言模型（VLM）驱动。这类生成式 AI 模型集计算机视觉和语言理解能力于一身，能够解释物理世界并执行推理任务。

适用于视频搜索和摘要的 NVIDIA AI Blueprint 可通过 NVIDIA NIM 微服务进行设置，以便用于 NVIDIA VILA 等 VLM、Meta 的 Llama 3.1 405B 等 LLM，以及用于 GPU 加速问答和上下文感知检索增强生成的 AI 模型。开发人员可以轻松换入其他 VLM、LLM 和图数据库，并使用 NVIDIA NeMo 平台对其进行微调，从而满足其特殊环境和用例的要求。

在研究和优化用于智慧城市应用的生成式 AI 模型时，开发人员可以通过使用 NVIDIA AI Blueprint 来节省数月时间。如果能够将该蓝图部署在边缘、本地或云端的 NVIDIA GPU 上，就可以大大加快梳理视频档案以识别关键时刻的过程。

在仓库环境中，使用该工作流构建的 AI 智能体会在违反安全规定时向工人发出警报。在繁忙的十字路口，AI 智能体可以识别交通事故并生成报告，为应急响应工作提供协助。在公共基础设施领域，维护人员可以要求 AI 智能体查看航拍镜头并识别正在恶化的道路、火车轨道或桥梁，帮助进行主动维护。

除了各种智慧空间外，视觉 AI 智能体还可用于为视力受损人士总结视频，自动生成体育赛事回顾，帮助标记海量视觉数据集，以用于训练其他 AI 模型。

该视频搜索和摘要工作流是 NVIDIA AI Blueprint 系列的一员。这些蓝图可帮助用户轻松创建 AI 驱动的数字虚拟化身、构建用于个性化客户服务的虚拟助手，以及从 PDF 数据中提炼企业洞察。

NVIDIA AI Blueprint 可供开发人员免费体验和下载，并可通过 NVIDIA AI Enterprise 部署到任何加速数据中心和云中的生产。NVIDIA AI Enterprise 是一个端到端软件平台，可加速数据科学管线，并简化生成式 AI 的开发和部署。

AI 智能体提供

从仓库到世界各国首都的洞察

在 NVIDIA 合作伙伴生态的帮助下，企业和公共部门客户还可以充分利用整个 NVIDIA AI Blueprint 系列。

全球专业服务公司埃森哲已将 NVIDIA AI Blueprint 集成到其基于 NVIDIA AI Foundry 构建的 Accenture AI Refinery 中，使客户能够开发在企业数据上训练而成的定制 AI 模型。

东南亚的全球系统集成商（包括马来西亚的 ITMAX 和越南的 FPT）正在基于 NVIDIA AI Blueprint 的视频搜索和摘要功能，构建适用于智慧城市和智能交通应用的 AI 智能体。

开发人员还可以利用全球服务器制造商提供的计算、网络和软件，在 NVIDIA AI 平台上构建和部署 NVIDIA AI Blueprint。

戴尔将在其 NativeEdge 平台上使用 VLM 和智能体来增强现有的边缘 AI 应用，并创建新的边缘 AI 功能。戴尔与 NVIDIA 合作开发的戴尔 AI 工厂参考设计以及适用于视频搜索和摘要的 NVIDIA AI Blueprint 将支持数据中心、边缘和本地多模态企业用例专用 AI 工作流中的 VLM 功能。

NVIDIA AI Blueprint 也被整合到 NVIDIA 驱动的联想混合 AI 解决方案中。

NVIDIA Metropolis 生态中的智慧城市应用提供商 K2K 等公司将使用这一全新 NVIDIA AI Blueprint 来构建能够实时分析实时交通摄像头的 AI 智能体。这将使城市政府官员能够询问关于道路情况的问题，并获得运营改进方面的建议。NVIDIA 还与意大利巴勒莫市的交通管理机构合作，使用 NIM 微服务和 NVIDIA AI Blueprint 来部署视觉 AI 智能体。

您可参加 11 月 7 日在巴塞罗那举行的全球智慧城市大会，并在 NVIDIA 展台进一步了解用于视频搜索和摘要的 NVIDIA AI Blueprint。

文章来自于微信公众号“图灵智新”，作者“NVIDIA”

让 AI 一探究竟：任何行业现在都能搜索和汇总大量视觉数据

AI 视觉智能体英伟达 Metropolis AI Metropolis

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务，如比较价格、添加购物车、回复各种社交媒体等。
项目地址：https://github.com/browser-use/browser-use

AI工作流

【开源免费】字节工作流产品扣子两大核心业务：Coze Studio（扣子开发平台）和 Coze Loop（扣子罗盘）全面开源，而且采用的是 Apache 2.0 许可证，支持商用！
项目地址：https://github.com/coze-dev/coze-studio

【开源免费】n8n是一个可以自定义工作流的AI项目，它提供了200个工作节点来帮助用户实现工作流的编排。
项目地址：https://github.com/n8n-io/n8n
在线使用：https://n8n.io/（付费）

【开源免费】DB-GPT是一个AI原生数据应用开发框架，它提供开发多模型管理（SMMF）、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL（智能体工作流编排）等多种技术能力，让围绕数据库构建大模型应用更简单、更方便。
项目地址：https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file


【开源免费】VectorVein是一个不需要任何编程基础，任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤，并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。
项目地址：https://github.com/AndersonBY/vector-vein?tab=readme-ov-file
在线使用：https://vectorvein.ai/（付费）

智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的（AI Agents）项目。用户创建的智能体能够自动执行各种任务，从而让AI有步骤的去解决实际问题。
项目地址：https://github.com/Significant-Gravitas/AutoGPT

﻿【开源免费】MetaGPT是一个“软件开发公司”的智能体项目，只需要输入一句话的老板需求，MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色，包括产品经理 / 架构师 / 项目经理 / 工程师，MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址：https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner