生成式 AI 赋能的视频分析 AI 智能体

探索运用视觉语言模型为各个行业提供丰富交互式视觉感知能力的一系列运用参考工作流。

工作负载

计算机视觉/视频分析

行业

制造业
智慧城市/空间
零售/快速消费品
媒体和娱乐
医疗健康和生命科学

业务目标

投资回报
创新

产品

NVIDIA Metropolis
NVIDIA AI Enterprise

概览
技术运用

赋能新一轮应用

传统的视频分析应用程序及其开发工作流程通常建立在功能固定的有限模型上，仅能检测和识别一组特定的预定义对象。然而，借助生成式 AI 和基础模型，用户现可以使用更少的模型构建应用程序，这些模型具有极其复杂且广泛的感知能力和丰富的上下文理解能力。这种新一代的视觉语言模型 (VLM) 正在让更智能、更强大的视频分析 AI 智能体成为可能。

什么是视频分析 AI 智能体？

视频分析 AI 智能体可以结合视觉和语言两种模态，理解自然语言提示并执行视觉问答。例如，用自然语言回答各种问题，并将回答应用于录制或实时视频流。更深入地理解视频内容，可以实现更准确和有意义的解读，改善视频分析应用的功能和真实场景的分析能力。这些智能体有望开启全新的洞察视角，为自动化带来更多可能性。

简化每一项工业操作

高感知度、高精确度和高交互式性视频分析 AI 智能体将部署在工厂、仓库、零售店、机场、交通路口等各个地方。这将对运营团队产生巨大影响，他们希望利用自然交互产生的更丰富的见解来做出更好的决策。管理人员和运营团队将使用自然语言与智能体进行沟通，这些智能体将由生成式 AI 和大视觉语言模型提供支持，其核心是 NVIDIA NIM™ 微服务。

探索技术运用。

快速链接

阅读博客：适用于视频搜索和总结 (VSS) 的 AI Blueprint 现已推出，可在各行各业部署视频分析 AI 智能体

阅读博客：NVIDIA 推出可分析视频的 AI 智能体蓝图

阅读博客：任何行业现在都能搜索和汇总大量视觉数据

阅读 Pegatron 案例研究

阅读 Linker Vision 案例研究

面向开发者的 NVIDIA NIM

NVIDIA NIM 是一组推理微服务，包括行业标准 API、特定领域代码、优化的推理引擎和企业运行时。它提供多个 VLM 来构建您的视频分析 AI 智能体，该智能体可以处理实时或存档的图像或视频，以使用自然语言提取可操作的见解。我们创建了一个视频分析 AI 智能体参考工作流，您可以尝试使用该工作流加速开发过程。

快速链接

试用视频分析 AI 参考工作流

阅读关于构建由 NVIDIA NIM 提供支持的多模态视频分析 AI 智能体的博客

借助 NVIDIA AI Blueprint 构建 AI 智能体

NVIDIA 视频搜索与总结 (VSS) AI Blueprint 让开发者能够轻松构建和定制视频分析 AI 智能体。这些智能体由生成式 AI、视觉语言模型 (VLM)、大语言模型 (LLM) 以及 NVIDIA NIM 提供强大支持。视频分析 AI 智能体可以通过自然语言接收任务指令，处理海量视频数据，提供关键洞察，帮助各行各业优化流程、提高安全性并降低成本。

基于此 Blueprint 构建的 AI 智能体能够大规模分析、解读和处理视频数据，与人工处理相比，生成视频总结的速度最高可提升 100 倍。该 Blueprint 通过整合多种生成式 AI 模型和服务加速了 AI 智能体的开发进程，既支持 NVIDIA 及第三方 VLM/LLM 模型的适配，又提供从边缘到云端的优化部署方案，具有很高的灵活性。

该 AI Blueprint 现已正式推出，具有单 GPU 部署、RTSP 流式传输、突发模式摄取、可定制的 CV 提取流程和音频转录等高级功能。

在 API Catalog 中体验 Blueprint。

快速链接

在 API 目录中体验 Blueprint

试用基于 Launchable 的云端 Blueprint

阅读博客：全面推出视频搜索和总结 AI 智能体

阅读博客：构建视频搜索和总结智能体

阅读博客：构建智能体视频工作流

博客：借助 NVIDIA AI Blueprint 构建实时多模态 XR 应用