计算机视觉 AI 系统是人工智能和机器学习的一个子集。 该领域专注于使用摄像机、数据和算法来理解数字图像、视频和其他视觉输入。它具有广泛的应用,从人脸面部识别密码保护(银行)到工厂生产线的缺陷检测(制造)、实时健康(医疗)和运动跟踪(消费者生活方式)。这是一个利润丰厚的领域,预计到 2022 年市场规模将达到 486 亿美元。
值得关注的是,人工智能 (AI) 越来越多地用于管理视频内容。基于深度学习的计算机视觉技术可以帮助识别视频流中的事件和面孔、对视频进行分类、自动添加字幕以及使用超分辨率等技术增强视频和图像。
视频 AI 是一项潜力巨大的技术。 今天,你可以使用许多云平台提供的强大视频 API,利用开箱即用的视频 AI 功能。在本文中,我们将介绍视频+AI平台,以帮助你快速开始构建属于自己的AI应用。
1. AWS 上的视频 AI
识别
基于高度可扩展的深度学习技术,轻松地将图像和视频分析添加到应用中:
- 识别图像和视频中的物体、人物、文本和场景
- 检测异常内容
- 执行准确的人脸分析和人脸检测——对用户识别、人口统计和公共安全场景很有用
视频流
将视频从连接的设备流式传输到平台,以进行分析、机器学习 (ML) 分析和播放。
Kinesis Video Streams 会自动设置和扩展从数百万台设备捕获流视频数据所需的所有基础设施。它永久存储、加密和索引视频数据,以便通过易于使用的 API 进行访问。
Kinesis Video Streams 支持实时和点播视频流,并执行基于 AI 的视频分析视频 Amazon Rekognition 以及 Apache MxNet、TensorFlow 和 OpenCV 等开源框架。
2. Microsoft Azure 上的视频 AI
支持视频图像分析的 Vision 包,提供以下功能:
- 计算机视觉——可以识别物体、输入和书写的文本、动作(如步行),并可以识别图像的主色。
- 内容审核器 - 可以检测文本、视频和图像中的不当内容。
- Face API——可以检测人脸并对其进行分组,以及识别人脸的年龄、性别、情绪、姿势和胡须。
- Emotion API——一种可以识别和描述面部表情的人脸识别工具。
- 自定义视觉服务 — 允许您使用自己的数据构建自定义图像识别模型。
- 视频索引器 - 一种工具,可以帮助在视频中找到人物,以及检测语音情绪并标记某些关键字。
在 Azure 中,通常使用弹性 Blob 存储服务存储数据。但是,对于要求苛刻的应用程序和实时 AI 处理,有时最好使用 Azure 高级存储。
3. Google Cloud 平台上的视频AI
Google Cloud Platform 提供的服务和 API 允许开发者对视频流和视频文件执行基于 AI 的操作。
- 视频智能API
提供预训练的机器学习模型,可以自动识别存储和流式视频中的大量对象、位置和动作。 它开箱即用,在常见用例中提供高性能,并且不断更新和重新训练新对象和概念。
- AutoML 视频智能
Google AutoML Video Intelligence 提供图形界面,允许具有最少机器学习经验的用户训练自定义模型,以便对视频中的对象进行分类和跟踪。 该解决方案适用于需要预训练 Video Intelligence API 未涵盖的标签的项目。
4. IBM Watson 的视频AI
IBM Watson Media 是一个用于媒体工作流和视频处理的 AI 平台。 其 Video Enrichment 产品为视频数据提供计算机视觉解决方案。
开发者可以使用 IBM Watson Media 流式传输事件、观看、视频营销产品发布和 OTT 流。 Video Enrichment 可让优化视频质量、执行自动视频搜索并自动创建字幕。教育工作者和媒体公司使用该解决方案来改进视频工作流程并通过内容获利。
5. Pixop 的视频 AI
PIxop Platform 是一款 Web 应用程序,利用机器学习在云中存储、转码和处理视频文件。
Pixop 提供了广泛的功能,包括视频质量分析、基于项目的视频资产管理模块,以及支持团队和客户之间协作的几个功能。Pixop平台完全基于云,无需硬件投资,无需安装软件。以下是 Pixop 的几个显著特点:
- Pixop Deep Restoration — 通过执行去模糊、消除压缩伪影以及将细节注入降级视频等任务,帮助恢复视频质量。
- Pixop Super Resolution——这是一个透明的升频器,有助于锐化和提高分辨率,提供比插值更准确的结果。
- Pixop Denoiser — 有助于减少数字噪音并改善颗粒感。
- Pixop Deinterlacer - 帮助重建隔行视频的细节并将其转换为非隔行和渐进形式。
- Pixop Dejitterer — 有助于稳定和修复因将视频转换为数字格式而移位的扫描线。
6. Valossa 的视频 AI
Valossa AI 是一个技术平台,可为视频内容提供分析和自动分析。它提供以下主要功能:
- 自动预览 — 自动生成视频预览以加快内容营销和促销活动。可用于创建带有在线视频智能预览的视频点播服务。
- 视频识别 API——能够检测和描述视频流中的关键概念。生成场景级、时间编码的元数据,支持视频内容的搜索、检索和组织。
- 人脸分析工具包——实时识别视频内容中的人脸。分析实时行为和人口统计特性。 这通过将 AI 与实时相机馈送相结合来实现交互式应用程序。
结论
基于云的视频 AI 平台提供了惊人的功能。目前在视频监控领域应用较为广泛的AI技术例如:智能检测与分析技术(如人脸检测与识别、物体识别、行为识别、目标追踪等)、图像及视频处理技术(视频图像处理、视频结构化等)。AI视频分析的主要目标是自动识别视频中的时间和空间事件,例如:行动可疑的人、不遵守交通标志的人、突然出现的火焰和烟雾等等。
国内以TSINGSEE青犀视频为典型代表的视频+AI平台,基于深度学习AI算法,通过对接入、采集的视频图像进行AI智能检测与识别、处理、分发,可对视频监控场景中的人、车、物进行抓拍、检测与识别,对异常情况进行智能提醒和通知,目前已经广泛应用于安防监控、智能分析、通行核验等场景。例如在安防监控AI检测与识别、电梯中的电动车检测、旅游景区客流分析、城市安防、智慧消防等等领域和场景中获得广泛应用。