数据收集与存储
数据来源:
- 用户访问行为数据
- 业务数据
- 外部第三方数据
数据存储:
- 需要存储的数据:原始数据、预处理后数据、模型结果
- 存储设施:磁盘、mysql、HDFS、HBase、Solr、Elasticsearch、Kafka、Redis等
数据收集方式: Flume & Kafka
机器学习开发流程
• 数据收集 • 数据预处理 • 特征提取 • 模型构建 • 模型测试评估 • 投入使用(模型部署与整合) • 迭代优化
机器学习可用公开数据集
• archive.ics.uci.edu/ml/datasets… • aws.amazon.com/cn/public-d… • www.kaggle.com/competition… • www.kdnuggets.com/datasets/in… • www.sogou.com/labs/resour… • tianchi.aliyun.com/datalab/ind… • www.pkbigdata.com/common/cmpt…