在人工智能的发展历程中,计算机视觉(CV)曾经是引领潮流的核心技术之一。从图像识别到物体检测,再到人脸识别,计算机视觉在过去的几十年里取得了显著的进步。然而,随着 AI 大模型的崛起,人们的关注点逐渐从传统的计算机视觉技术转向了这些通用模型的广泛应用和潜力。
但计算机视觉作为 AI 领域的重要组成部分,自身的发展和大模型的发展并不是「水火不相容」。近年来,基于深度学习的卷积神经网络(CNN)大大提升了计算机视觉任务的性能。大模型的架构和概念也逐渐应用于计算机视觉领域,产生了诸如Vision Transformer (ViT) 这样的模型。
我们不妨来看看,在大模型的热潮之下,计算机视觉领域呈现出了怎样的新风貌,今天马建仓为大家推荐的就是六款最近 Gitee 上热门的计算机视觉项目。
seetafaceJNI
项目作者: cnsugar
开源许可协议: BSD-2-Clause
基于中科院 seetaface2 进行封装的 JAVA 人脸识别库,支持人脸识别、1:1比对、1:N比对。
PaddleOCRSharp
项目作者: 明月心
开源许可协议: Apache-2.0
基于百度飞桨 PaddleOCR 的开源代码修改并优化的 .NET 版本 OCR 可离线使用类库,目前已经支持 C++、.NET、Python、Golang、Rust 等众多开发语言的直接 API 接口调用。项目包含文本识别、文本检测、表格识别功能。
JavaVision
项目作者: xgc
开源许可协议: Apache-2.0
JavaVision 是一个基于 Java 开发的全能视觉智能识别项目。不仅实现了 PaddleOCR-V4、YoloV8 的物体识别、人脸识别、以图搜图等核心功能,还可以轻松扩展到其他领域,如语音识别、动物识别、安防检查等。
YMCV
项目作者: Yao-Mi
开源许可协议: MIT
跨平台迷你计算视觉库,源码由 C 语言编写,可以在任意平台编译,这个库也可以通过选择开启部分功能从而实现将库裁剪到所需大小,降低对小型计算机的源码空间占用。
FaceMaster
项目作者: 花开富贵
开源许可协议: MIT
FaceMaster 是一款基于 Python 的入门级人脸识别项目,旨在为用户提供简单易用的图片和视频人脸识别功能。无论是初学者还是有一定编程经验的用户,都能够轻松上手,通过该项目快速了解和应用人脸识别技术。
SpireCV
项目作者: AMOVLAB
开源许可协议: Apache-2.0
SpireCV 是一个专为智能无人系统打造的边缘实时感知 SDK,主要功能包括相机/吊舱控制、视频保存与推流、目标探测识别与跟踪、边缘数据管理迭代等。旨在为移动机器人开发者提供高性能、高可靠、接口简洁、功能丰富的视觉感知能力。
所以,大家其实并不是真的不关心计算机视觉的发展,而是计算机视觉作为曾经高高在上的技术领域,现在已经慢慢融入到各行各业,融入进大家开发的日常中。
未来我们也期待今天的大模型也会像计算机视觉这样,融入到各行各业日常的开发中,真正为大众所用。