机器是如何学习的?(半监督式学习和其它方式)

2,064 阅读3分钟

一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第22天,点击查看活动详情

众所周知,机器学习增强了人类的能力,让以前人脑不可能的事情变成了可能。机器学习目前广泛应用于金融、产品销售、新媒体、医疗、社会科学、游戏娱乐、工业制造等众多领域,它无处不在,并且在蓬勃发展!但接下来的问题是,应用场景虽然不同,但其原理都是相同的,那么机器是如何学习的?

半监督学习

如果我们只能标记很小一部分的数据,那么监督式学习(Semi-Supervised Learning)是不能完全满足要求的,那么就使用非监督式学习方法呢?虽然非监督式学习方法可以识别模式和创建集群,但是它不能应用于以下两个方面:

  • 创建自定义或特定集群
  • 达到一定的精确度阈值

但还好,我们除开监督式和监督式学习,我们还有另外一个选择,那就是半监督式学习,其立足于半监督学习-监督学习和非监督学习之间的桥梁-的情情况是哪个,算法确定数据点之间的相关性,然后使用少量标记数据标记这些点,然后,系统根据新应用的数据标签进行培训。

image.png

其在以下方面领域特别有用:

  • 自然语言处理(NLP),比如文本分类
  • 医学领域,比如蛋白质序列分类

在上面或者其它类似的领域,数据量特别大,但是大部分的数据都是未经标记的。

半监督学习具体的步骤是:

  1. 通过算法或人工给出的数据打上一小部分的标签
  2. 使用非监督式学习算法来创建相似数据点的集群
  3. 使用标记的数据进一步训练其余的未标记的数据

半监督的ML就像一个探险家在抵达一个地区后先了解地形的情况,然后寻求当地人的帮助来更加深入地了解个别地区。

分类

半监督学习算法大致有以下的分类:

  • self-training(自训练算法)
  • Graph-based Semi-supervised Learning(基于图的半监督算法)
  • Semi-supervised supported vector machine(半监督支持向量机,S3VM)

例子

具体的应用场景有:

  • 减轻语音分析中的数据准备负担,在语音分析中,标记音频文件通常是非常劳动密集型的。
  • Web分类,处理数十亿计数的网页中可用的知识同样需要使用大量的时间和资源。
  • Google的Expander,包括Gmail和Google picture 都在使用这项技术。

其它学习方式

强化学习

另一类机器学习方法是强化学习(Reinforcement learning)。与依赖标记或未标记的数据不同,强化学习使用奖惩概念使机器学习模型自己解决问题。这种学习设置几乎是自主的,人工干预仅限于改变环境和调整奖励/惩罚。强化学习在建立自治系统中得到了广泛的应用,无论是自动驾驶汽车还是电子游戏机器人。

image.png

对抗学习

随着机器学习模型成为主流,攻击和黑客攻击的威胁正在增加,这就是对抗性学习(Adversarial learning)的情景,一个监督式学习的细分领域。

image.png

总结

通过连续三篇文章,我们系统性地了解机器学习的方式。总的来说,有几点有助于我们工程实践它。

  • 首先必须要明确机器学习的任务,场景。
  • 很多情况下好的数据却要优于好的算法,设计优良特征和做特征工程更有意义。
  • 核心是了解每个机器算法的原理及优缺点,才能根据不同的机器学习算法做相应的特征工程。