人工智能学习路线
1、学习路径图
2、阶段 1:端到端的机器学习
3、阶段 2:深度学习
4、阶段 3:生成式人工智能
5、阶段 4:模型部署
6、补充知识
--- 6.1、集成学习
--- 6.2、领域专业知识
7、创建投资组合
......
1、学习路径图
2、阶段 1:端到端的机器学习
以学习完整的建模过程为主要目标,以了解常用机器算法(优缺点,原理,步骤,应用)和学习建模工具(
Sklearn\scikit-learn)为次要目标,快速熟悉端到端的建模过程。
实践多个案例,熟悉端到端的建模过程,主要内容参考如下:
- 了解人工智能,机器学习,深度学习,统计机器学习等相关概念;
- 学习常用算法原理。了解算法优缺点,原理,步骤,应用即可,不必过多关注数学公式;
- 学习建模分步过程。如:
CRISP-DM; - 学习建模工具。如:
scikit-learn; - 在小数据集上练习。如:
UCI数据集; - 将模型打包或序列化后的结果部署为
Flask API或Streamlit\Gradio应用;
补充内容:
- 了解自动化机器学习工具。
- 了解处理大数据集的 python 库。
推荐阅读:
- 《深度学习:从基础到实践》 (上册)- [美] Andrew Glassner
3、阶段 2:深度学习
深度学习,主要内容参考如下:
- 了解深度学习相关概念;
- 学习深度学习常用算法及深度学习方法体系(
CNN,RNN,LSTM,Transformer,等); - 学习深度学习框架\工具(
keras,PyTorch,Tensorflow,FastAI); - 学习自然语言处理,计算机视觉;
- 在 KAggle,阿里天池上练习;
补充内容:
机器学习算法深度解析,需要一定数学基础(线性代数,微积分,概率论与数理统计)。
从头开始理解机器学习算法将帮助您为任务选择正确的算法,解释结果,解决高级问题,将算法扩展到新应用程序,并提高现有算法的性能。
- 深度解析机器学习算法;
- 学习深度学习自制框架:
DeZero; - 学习框架\工具源码;
推荐阅读:
- 《深度学习:从基础到实践》 (下册)- [美] Andrew Glassner
- 《深度学习入门基于Python的理论与实现》 - [日] 斋藤康毅
- 《深度学习入门2自制框架》 - [日] 斋藤康毅
- 《深度学习进阶:自然语言处理》 - [日] 斋藤康毅
- 《深度学习入门4:强化学习》 - [日] 斋藤康毅
-
《achine Learning Algorithms in Depth》 - VADIM SMOLYAKOV
-
《统计学习方法》 (第2版) - 李航
-
《机器学习》(西瓜书)- 周志华
4、阶段 3:生成式人工智能
深入研究高级人工智能主题,关注生成模型:
- 学习提示工程(专注于创建和改进提示)。如:
coze; - NLP 的生成模型,LLM(大语言模型);
- 计算机视觉的生成模型;
- 了解如何从头开始构建这些生成模型;
- 了解生成人工智能的最新趋势和研究;
推荐阅读:
-
2024 年学习生成式人工智能的最佳路线图 — analyticsvidhya
-
机器学习的最新进展带代码的论文 — paperswithcode
-
10 个学习法学硕士的免费资源 — kdnuggets
5、阶段 4:模型部署
MLOps,机器学习的部署和生命周期管理:
- 基础知识:
git\github\Linux\容器化\云,HF Spaces\Streamlit Sharing; - 部署方式:在线部署:批处理,实时(数据库触发器、发布/订阅、Web 服务、应用内);离线部署(在本地开发环境、测试环境或内部离线环境中部署批处理,实时处理);
- 主要内容:自动化管道,监控,生命周期管理,治理;
- 核心概念:持续集成与持续部署(CI/CD),版本控制,模型监控;
- 管理工具:
MLFlow,Polyaxon,Metaflow,Kubeflow;
推荐阅读:
-
成为 MLOps 工程师所需的唯一免费课程:MLOps Zoomcamp — kdnuggets
-
掌握 MLOps 的 10 个 GitHub 存储库 — kdnuggets
6、补充知识
6.1、集成学习
主要内容参考如下:
- 了解集成学习相关概念;
- 学习集成学习常用算法及集成学习方法体系(
Bagging,Boosting,Stacking,Blending,等); - 学习集成学习 Python 库(
Scikit-learn,XGBoost,LightGBM,CatBoost); - 练习\实践。如,小数据集
UCI数据集 或kaggle等; - 通过
Flask API或Streamlit\Gradio部署应用;
推荐阅读:
- 《集成学习:基础与算法》 - 周志华,李楠
6.2、领域专业知识
作为数据科学家,需要具备解决相关领域的问题,需要理解相关领域的专业知识
领域专业知识:
-
学习不同领域专业知识,如保险,信贷,物流,电商等;
-
通过研究竞赛平台多领域数据科学问题,获得 多样化的经验 培养 解决问题的技能;
-
可以通过收集的行业知识\信息,分析案例,创建行业知识库;
7、创建投资组合
选择与众不同的新颖项目创建投资组合:
- 以
Kaggle和阿里天池等竞赛网站为起点; - 将报告在微信公众号、知乎、掘金等平台展示结果;
- 在 Github 上托管个人博客;