史上最强kaggle数据科学词汇表

165 阅读3分钟

公众号:尤而小屋
作者:Peter
编辑:Peter

大家好,我是Peter~

Kaggle 是数据科学者必须逛的地方,上面有太多的数据科学、算法、建模等方向的知识需要学习。 Kaggle Kernels 是互联网上了解算法实际实现的最佳资源之一。

最近在kaggle上面看到一份十分详细的数据科学模型、技术和工具的词汇表,今天分享给大家,主要分为12个专栏:

1、回归算法Regression Algorithms

主要是讨论:

  1. 线性回归Linear Regression
  2. 逻辑回归Logistic Regression

2、正则化算法Regularization Algorithms

详解了3个主要的正则化方法:

  1. 岭回归
  2. Lasso回归
  3. 弹性网络Elastic Net

3、树模型

树模型十分强大,介绍了6个主要的树模型:

  1. 决策树Decision Tree

  2. 随机森林Random Forests

  3. LightgbmLightgbm

  4. XGBoostXgBoost

  5. Cat BoostCat Boost

  6. Gradient BoostingGradient Boosting

4、神经网络和深度学习

  1. 神经网络Neural Networks
  2. 自编码器AutoEncoders
  3. 深度学习DeepLearning
  4. 卷积神经挖网络Convolutional Neural Networks / CNN
  5. 循环神经网络Recurrent Neural Networks / RNN
  6. 长短期记忆网络LSTMs
  7. 门控循环单元GRUs
  8. MxNet网络
  9. ResNet网络
  10. CapsuleNets网络
  11. Unet网络
  12. VGGs
  13. Xception
  14. Inception Nets
  15. 计算机视觉Computer Vision
  16. 迁移学习Transfer Learning
  17. 目标检测Object Detection
  18. RCNN
  19. MobileNet

5、聚类算法

  1. K-means聚类 K Means Clustering
  2. 层次聚类Hierarchial Clustering
  3. DBSCANDB Scan
  4. 无监督学习Unsupervised Learning

6、分类算法

常见的分类算法:

  1. 朴素贝叶斯分类K Naive Bayes
  2. 支持向量机分类SVMs
  3. K近邻分类KNN

7.1 、数据预处理

数据预处理的常见操作:

  1. 数据探索EDAEDA, Exploration
  2. 特征工程Feature Engineering
  3. 特征筛选Feature Selection
  4. 离群点处理Outlier Treatment
  5. 异常点检测Anomaly Detection
  6. 上下采样SMOTE
  7. 建模管道Pipeline
  8. 缺失值处理Missing Values

7.2 、降维

  1. 认识数据降维Dataset Decomposition
  2. PCA
  3. Tsne
  4. 奇异值分解SVD

7.3 、模型调优

  1. 交叉验证 Cross Validation
  2. 模型选择Model Selection
  3. 模型调整Model Tuning
  4. 网格搜索Grid Search

7.4、集成学习

关于集成学习思想:

  1. Ensembling
  2. Stacking
  3. Bagging
  4. Blending

8、文本数据

文本主要是涉及到NLP的相关知识:

  1. 认识NLPNLP
  2. Topic Modelling
  3. Word Embeddings
  4. Spacy工具
  5. NLTK工具
  6. TextBlob

9、数据科学工具

介绍13个必知必会的数据科学工具:

  1. Scikit Learn
  2. TensorFlow
  3. Theano
  4. Kears
  5. PyTorch
  6. Vopal Wabbit
  7. ELI5
  8. HyperOpt
  9. Pandas
  10. Sql
  11. BigQuery
  12. GPU
  13. H2o
  14. Fast.AI

10、数据可视化

  1. 认识数据可视化
  2. Plotly
  3. Seaborn
  4. D3.Js
  5. Bokeh
  6. Highchart
  7. Folium
  8. ggPlot

11、时间序列

  1. 时间序列分析Time Series Analysis
  2. 时序经典模型ARIMA
  3. 时序预测Forecasting

12、其他

  1. kaggle最佳入门教程Best Tutorials on Kaggle
  2. 数据泄露问题Data Leak
  3. 对抗性验证Adversarial Validation
  4. 生成对抗网络GAN Generative Adversarial Networks

参考

本项目的kaggle官网地址,大家可以分专栏进行学习:

www.kaggle.com/code/shivam…