公众号:尤而小屋
作者:Peter
编辑:Peter
大家好,我是Peter~
Kaggle 是数据科学者必须逛的地方,上面有太多的数据科学、算法、建模等方向的知识需要学习。 Kaggle Kernels 是互联网上了解算法实际实现的最佳资源之一。
最近在kaggle上面看到一份十分详细的数据科学模型、技术和工具的词汇表,今天分享给大家,主要分为12个专栏:
1、回归算法Regression Algorithms
主要是讨论:
- 线性回归Linear Regression
- 逻辑回归Logistic Regression
2、正则化算法Regularization Algorithms
详解了3个主要的正则化方法:
- 岭回归
- Lasso回归
- 弹性网络Elastic Net
3、树模型
树模型十分强大,介绍了6个主要的树模型:
-
随机森林Random Forests
-
LightgbmLightgbm
-
XGBoostXgBoost
-
Cat BoostCat Boost
-
Gradient BoostingGradient Boosting
4、神经网络和深度学习
- 神经网络Neural Networks
- 自编码器AutoEncoders
- 深度学习DeepLearning
- 卷积神经挖网络Convolutional Neural Networks / CNN
- 循环神经网络Recurrent Neural Networks / RNN
- 长短期记忆网络LSTMs
- 门控循环单元GRUs
- MxNet网络
- ResNet网络
- CapsuleNets网络
- Unet网络
- VGGs
- Xception
- Inception Nets
- 计算机视觉Computer Vision
- 迁移学习Transfer Learning
- 目标检测Object Detection
- RCNN
- MobileNet
5、聚类算法
- K-means聚类 K Means Clustering
- 层次聚类Hierarchial Clustering
- DBSCANDB Scan
- 无监督学习Unsupervised Learning
6、分类算法
常见的分类算法:
- 朴素贝叶斯分类K Naive Bayes
- 支持向量机分类SVMs
- K近邻分类KNN
7.1 、数据预处理
数据预处理的常见操作:
- 数据探索EDAEDA, Exploration
- 特征工程Feature Engineering
- 特征筛选Feature Selection
- 离群点处理Outlier Treatment
- 异常点检测Anomaly Detection
- 上下采样SMOTE
- 建模管道Pipeline
- 缺失值处理Missing Values
7.2 、降维
- 认识数据降维Dataset Decomposition
- PCA
- Tsne
- 奇异值分解SVD
7.3 、模型调优
- 交叉验证 Cross Validation
- 模型选择Model Selection
- 模型调整Model Tuning
- 网格搜索Grid Search
7.4、集成学习
关于集成学习思想:
8、文本数据
文本主要是涉及到NLP的相关知识:
- 认识NLPNLP
- Topic Modelling
- Word Embeddings
- Spacy工具
- NLTK工具
- TextBlob
9、数据科学工具
介绍13个必知必会的数据科学工具:
- Scikit Learn
- TensorFlow
- Theano
- Kears
- PyTorch
- Vopal Wabbit
- ELI5
- HyperOpt
- Pandas
- Sql
- BigQuery
- GPU
- H2o
- Fast.AI
10、数据可视化
11、时间序列
- 时间序列分析Time Series Analysis
- 时序经典模型ARIMA
- 时序预测Forecasting
12、其他
- kaggle最佳入门教程Best Tutorials on Kaggle
- 数据泄露问题Data Leak
- 对抗性验证Adversarial Validation
- 生成对抗网络GAN Generative Adversarial Networks
参考
本项目的kaggle官网地址,大家可以分专栏进行学习: