探索运用视觉语言模型为各个行业提供丰富交互式视觉感知能力的一系列运用参考工作流。
工作负载
计算机视觉/视频分析
行业
制造业
智慧城市/空间
零售/快速消费品
媒体和娱乐
医疗健康和生命科学
业务目标
投资回报
创新
产品
NVIDIA Metropolis
NVIDIA AI Enterprise
传统的视频分析应用程序及其开发工作流程通常建立在功能固定的有限模型上,仅能检测和识别一组特定的预定义对象。然而,借助生成式 AI 和基础模型,用户现可以使用更少的模型构建应用程序,这些模型具有极其复杂且广泛的感知能力和丰富的上下文理解能力。这种新一代的视觉语言模型 (VLM) 正在让更智能、更强大的视频分析 AI 智能体成为可能。
视频分析 AI 智能体可以结合视觉和语言两种模态,理解自然语言提示并执行视觉问答。例如,用自然语言回答各种问题,并将回答应用于录制或实时视频流。更深入地理解视频内容,可以实现更准确和有意义的解读,改善视频分析应用的功能和真实场景的分析能力。这些智能体有望开启全新的洞察视角,为自动化带来更多可能性。
高感知度、高精确度和高交互式性视频分析 AI 智能体将部署在工厂、仓库、零售店、机场、交通路口等各个地方。这将对运营团队产生巨大影响,他们希望利用自然交互产生的更丰富的见解来做出更好的决策。管理人员和运营团队将使用自然语言与智能体进行沟通,这些智能体将由生成式 AI 和大视觉语言模型提供支持,其核心是 NVIDIA NIM™ 微服务。
探索技术运用。
快速链接
NVIDIA NIM 是一组推理微服务,包括行业标准 API、特定领域代码、优化的推理引擎和企业运行时。 它提供多个 VLM 来构建您的视频分析 AI 智能体,该智能体可以处理实时或存档的图像或视频,以使用自然语言提取可操作的见解。我们创建了一个视频分析 AI 智能体参考工作流,您可以尝试使用该工作流加速开发过程。
快速链接
NVIDIA 视频搜索与总结 (VSS) AI Blueprint 让开发者能够轻松构建和定制视频分析 AI 智能体。这些智能体由生成式 AI、视觉语言模型 (VLM)、大语言模型 (LLM) 以及 NVIDIA NIM 提供强大支持。视频分析 AI 智能体可以通过自然语言接收任务指令,处理海量视频数据,提供关键洞察,帮助各行各业优化流程、提高安全性并降低成本。
基于此 Blueprint 构建的 AI 智能体能够大规模分析、解读和处理视频数据,与人工处理相比,生成视频总结的速度最高可提升 100 倍。该 Blueprint 通过整合多种生成式 AI 模型和服务加速了 AI 智能体的开发进程,既支持 NVIDIA 及第三方 VLM/LLM 模型的适配,又提供从边缘到云端的优化部署方案,具有很高的灵活性。
该 AI Blueprint 现已正式推出,具有单 GPU 部署、RTSP 流式传输、突发模式摄取、可定制的 CV 提取流程和音频转录等高级功能。
快速链接
您可以使用 NVIDIA JetPack™ – Jetson 平台服务,构建由 NVIDIA Jetson™ 边缘 AI 平台提供支持的视频分析 AI 智能体。生成式 AI 应用完全在 NVIDIA Jetson Orin™ 设备上运行,该设备能够检测事件、生成警报,并支持交互式问答会话。
快速链接
探索由多个视觉语言模型提供支持的参考工作流,轻松构建您的视频分析 AI 智能体。
利用 VSS blueprint 的强大功能,从边缘到云端无缝部署 AI 智能体,并在各种 GPU 中实现可扩展性能。