今年做了挺多AI相关的项目,不过因为我算法很菜,所以基本上都是在别人的算法上套个壳,下面就按类别来进行简单介绍吧。
视频版本传送门:www.bilibili.com/video/BV1MR…
目标检测
目标检测(Object Detection)的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。
基于YOLOv5的目标检测
这个比较简单,基本上就是给定一张图片,然后经过目标检测会自动把目标给你检测出来,效果如下:
基于YOLOX的实时目标检测
代码地址: github.com/xiaoyou-bil…
这个是基于视频的实时目标检测,可以自动解析rtmp视频流,然后进行一个实时的目标检测,效果如下:
基于YOLO v5+arcFace 的动漫人脸识别
这个算做了比较久的一个项目,采用了多个算法结合的方式,给定一张动漫图片,可以自动视频图片中的人脸并标识动漫人物的名字,效果如下:
这里再给大家多放一点图,因为算法比较粗糙,所以准确率方面还是有待改进的
图像生成
这个也算比较热门的领域了,通过AI来生成图片,比如最近很火的AI绘画属于这个领域
基于GAN的动漫头像生成
这个项目包括两个,一个是2018年的DCGAN算法,生成的效果如下,感觉比较一般
下面一个是2021年的styleGan3的算法生成的,可以看到这个效果完爆上面的
AI绘画
这个基本上就是简单调研了一下stable-diffusion,以及不同版本的模型对比,比如下面这些图都是通过AI生成的
语音相关
因为是文章不方便展示效果,想听实际效果的请看视频版本
声纹识别 - 基于resnet+arcface的游戏角色识别
声纹识别就是识别出谁在说话,这里我做了一个判断原神游戏角色的项目
语音合成 - 基于vits的语音合成
这里我训练了两个人物模型,可以选择不同的人物模型,然后合成不同的声音
声音克隆 - 基于StarGANv2-VC原神声线转换
这个项目可以任意上传一段音频,然后把你的声音转换为原神角色的声音,不过实际测试效果一般,可能是训练数据集太少了
姿态估计
人体姿势估计的研究目标是根据图像和视频等输入数据来定位人体部位并建立人体表现形式(例如人体骨骼)。在过去的十年中,它引起了越来越多的关注,并已被广泛用于包括人机交互,运动分析,增强现实和虚拟现实的应用中。
3D姿态估计 - 基于openpose生成MMD视频
这个就是给定一段视频,然后自动视频视频里面的人物动作,生成mmd文件,然后就可以让3D人物模型模仿视频中的动作了
人脸姿态估计 - 让纸片人模仿川普说话
这个就是让一个动漫人物(静态图片)去模仿视频中的人脸说话
强化学习
强化学习(RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。 强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。
与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找探索(对未知领域的)和利用(对已有知识的)的平衡。
基于DQN的强化学习玩超级马里奥
这个就是让AI自动去玩超级马里奥游戏
结语
以上这些就是今年做的一些项目了,其实还有很多领域还没探索过,明年我也会继续进行探索