机器学习——特征提取

36 阅读1分钟

数据收集与存储

数据来源:

  1. 用户访问行为数据
  2. 业务数据
  3. 外部第三方数据

数据存储:

  1. 需要存储的数据:原始数据、预处理后数据、模型结果
  2. 存储设施:磁盘、mysql、HDFS、HBase、Solr、Elasticsearch、Kafka、Redis等

数据收集方式: Flume & Kafka

机器学习开发流程

• 数据收集 • 数据预处理 • 特征提取 • 模型构建 • 模型测试评估 • 投入使用(模型部署与整合) • 迭代优化

image.png

机器学习可用公开数据集

archive.ics.uci.edu/ml/datasets…aws.amazon.com/cn/public-d…www.kaggle.com/competition…www.kdnuggets.com/datasets/in…www.sogou.com/labs/resour…tianchi.aliyun.com/datalab/ind…www.pkbigdata.com/common/cmpt…

文本数据抽取

image.png