2023年开始,Cursor等各大AI编程工具就不断涌现和兴起,到2025年的今天,我一直在研究AI相关的技术实践。说实话,这2年多的探索过程充满了迷茫和挫折。
每当有新的AI工具和模型出现时,我都会问自己:
- "这个工具真的能解决企业的实际问题吗?"
- "投入时间研究和学习值得吗?会不会有更好的模型或者工具出现?"
- "程序员应该跟上这波AI浪潮,还是继续保持现状?"
确实是因为之前在公司做了几年架构师,导致我在GPT出现1年后,都不太看的上AI编程,但是后面我的态度慢慢改变了,发现有了AI,编程工作可能会变得更加美好,未来可能真的会出现人人都是架构师的现象。(Prompt Engineering)
最近一年各种大模型能力都取得了飞跃性突破,基本上在各行各业都有非常多的涉足,每一个互联网企业都在往AI方向转型。(虽然目前我的研究发现, AI最痛的点还是在垂直领域的能力短板以及上下文长记忆性的不足)所以我花了接近1年的时间,来摸索和梳理市面上开源的AI工具和平台,来帮助大家快速建立AI能力认知和AI技术的评判力。
内容主要分为如下几个方向:
- AI编程类
- 图片设计图生成代码(D2C)类
- 数据处理与标注类
- 图像处理类
- 视频处理类
- 音频处理类
- 计算机视觉
- 工作流&自动化
- 文件解析类(文档解析理解,图片OCR识别等)
- AI平台和应用
- 领域专用工具和模型
基本上每一个分类下都有比较成熟的开源项目,方便我们来研究和学习,我相信未来会出现更多AI开源项目,解决企业的智能化和效能问题。接下来我就和大家分享一下上述我整理的AI开源项目图谱。(大家可以通过名称搜索到对应的开源项目)
-
AI编程类
-
图片设计图生成代码(D2C)类
-
数据处理与标注类
-
图像处理类
-
视频处理类
当然视频处理类还有很多开源项目,比如:
- OpenCV 计算机视觉基础库,支持视频读取、帧处理、目标检测、跟踪
- YOLOv8 实时目标检测与实例分割,支持视频流处理
- Pika Labs 文本驱动视频生成,支持精细控制
- MoviePy 视频剪辑、拼接、字幕添加、特效处理
- Real-ESRGAN 视频超分辨率、去模糊、降噪
- DeepVideoDeblurring 视频去模糊,恢复清晰画面
- 音频处理类
- 计算机视觉
- 工作流&自动化
- 文件解析类(文档解析理解,图片OCR识别等)
- AI平台和应用
- 领域专用工具和模型
好了,今天的分享就到这,相比大家会对AI有更好的认知,后续我会支持分享AI的产品技术实践,以及如何用AI构建高效率研发体系。大家有好的AI推荐和建议,也欢迎在留言区交流反馈~