数据获取
去那里找数据集
- Paper With Codes
- Kaggle
- Google Dataset Search
- 竞赛数据集,会议数据集
- Open Data on AWS
数据集比较
生成数据
- 使用GAN网络
- 数据增强
数据标注
半监督学习
自学习
众包
主动学习
主动学习的过程是,通过机器学习模型选出一批最难以分类的样本数据,交给标注工进行人工标注,然后将人工标注的数据放入到模型中进行训练,逐步提高模型的效果,使人工经验能够参与融入到机器学习的模型中。
如何选择样本
- 选择最不确定的样本:选择分类最高概率接近的
- Query-By-Commitee: 训练多个模型,对样本进行投票