机器学习初探

185 阅读1分钟

​ ​ 刚开始学习机器学习,希望通过博客来记录自己学习成长的一点一滴。菜鸟一枚,如若有理解偏差的地方,欢迎各位大佬提出斧正,小道在此感激不敬!

1.监督学习

​ 对机器学习来说,监督学习就是通过已知特征和标签的数据集训练机器,让机器能够自己找出特征与标签之间的规律。在面对没有标签只有特征的时候,可以凭借之前训练的规律,找出标签。

回归问题

​ 这是监督学习的第一大类问题,例如:通过收集的房价数据,即特征“房子面积”,和标签”房价“。通过直线或曲线去拟合数据,来预测当有新的特征时,所对应的标签。

分类问题

​ 这是监督学习中第二大类问题,例如:通过收集的肿瘤患者数据,即特征“患者年龄”及“肿瘤大小”,和标签“恶性”或者“良性”(分别用两个离散值0,1表示)。通过找到模型分界线来对数据进行分类,从而在有新的特征时,预测所属类别。

区别:分类问题针对离散数据,回归针对连续数据。

2.无监督学习

​ 与监督学习不同,无监督学习,是已知数据集没有告诉标签的情况下,机器自己通过发现数据间的联系,来进行分类。

聚类算法

​ 以之前的肿瘤问题为例,当给你一批肿瘤患者数据,不告诉你任何标签时,机器通过聚类算法将数据集判断并分成多个不同的聚集簇。