人工智能工业应用痛点及解决思路

1,407 阅读11分钟

本文由 【FMI飞马网】原创,原文链接:人工智能工业应用痛点及解决思路

分享一些关于人工智能的干货小白| Python+Matlab+机器学习+深度神经网络+理论+实践+视频+课件+源码,附下载!

在关于AI、人工智能的消息铺天盖地卷来的今天,你是不是觉得人工智能应用已经在我们生活的方方面面普及了?

事实是尽管人工智能在语音、图象、NLP领域其实有了比较多的应用,但是实质上相比于大家在手机里装的APP来说,它并没有那么多真正上的应用。为什么会产生这样的情况呢?人工智能是不是已经爆发了,或者离爆发还差什么样的因素呢?

来自第四范式的联合创始人、深度学习迁移专家陈雨强在由飞马网主办的FMI2017人工智能大会上为我们做了详细解释。

1.png

陈雨强

人工智能的兴起是随着数据量变大,机器性能提升和并行计算发展共同带来的结果。

工业界的人工智能需要什么样的系统呢?

陈雨强表示,需要的是Scalable的系统,而这个Scalable两层含义,一层含义是传统大数据Scalable,这个Scalable指的是我们机器学习,数据处理的吞吐使得机器的量增加而增加。另一个更重要意义上的Scalable,是我们的机器、智能水平、服务质量、客户体验等,随着业务量的增加,随着用户量的增加而增加,这是更重要意义上的Scalable体系。那为什么这是非常重要的呢?

因为它给企业来一种新的增长的方式。过去企业基本上拼的是跑马圈地,我拼我的渠道,我拼我的运营,我拼我的市场,我拼我的资本。在这种情况下,谁拥有更好的资本,谁拥有更好的运营,你就拥有更多的市场,圈更多的地。但随着跑马圈地的阶段接近尾声,增长达到一定程度以后,跑马圈地并不是可持续的发展方式。而现在慢慢的由跑马圈地,需要转化成精细化运营。这种情况下谁的运行效率更高,谁的效果更高,谁就能抢到更多的用户,带来更好的效果。而这是个非常高的壁垒,人工智能正好能做到这一点,因为人工智能用到的是数据,数据是无法被复制的。比如即使你现在拥有百度所有的代码,你也不会拥有跟百度一样能力的搜索引擎,因为你没有近10年以来所有人的搜索习惯。

对于企业来说多了一种新的增长方式或者壁垒的方式,通过建立人工智能的能力,让它积累的时间上的优势和数据上的优势变成它壁垒。这也正是人工智能收到追捧的原因。

怎样才能达到一个比较高的Scalable的系统呢?

陈雨强在演讲中提到:工业大数据需要高VC维模型。VC理论描述的是计算机人工智能的程度,描述拟合复杂函数的能力,VC越高的话代表这个模型越聪明,VC越端,代表这个模型越弱。

2.png

从上图可以看出,高VC维的情况下,我们不断的进行学习,训练数据上的损失在不断的下降,但你测算的损失是先下降,后上升的。

对于人工智能来说,由于无法区分数据的好坏,所谓的低VC维模型,当数据量不够大的时候,用蠢一点的模型,随着训练不断的增加,测试在将来的表现越来越好。另一方面在于这个数据不永远是小的,现在随着互联网的发展,数据越来越多,在这种情况下你会发现笨一点的模型比好一点的模型效果好很多。

工业界要获得一个Scalable的系统,就需要一个高VC维模型的模型,随着数字的增加,智能程度就增加,智能程度增加,用户的体验,产品的壁垒就高。

那么怎么得到一个高VC维模型的呢?

陈雨强为我们总结了大概的几种套路:机器学习=数据+特征+模型。

3.png

数据量,在数据保持恒定的情况下,其实我们可以看到,我们从两个角度分开看这个事情,一个宏观特征,一个微观特征。另外了模型分成两部分,一部分叫做简单的模型,简单的模型用学术语言说法,比如说线性模型,还有一种复杂模型,是非线性模型,其实有比较多的模型。我们看到这种分法把我们机器学习人工智能分成四个现象,第一个象限,简单模型加上微观特征,在这样的系统里面我们的人工智能比较难以发挥比较好的效果的,因为因为他的VC维比较低,效果一般不是特别好。

▲ 第一象限,在上个世纪七八十年代,有个比较著名的数据,大概一千多数据集,每个数据集大概一百到一千个数据,一千条数据。这样子的国画过去的科学家在这个数据上去研究方法,不可能有一个比较复杂的模型。所以说当时大概研究的主要是第一象限的模型。

▲ 第二象限,最著名的一个代表的工业界的代表可能是谷歌的Adword2。谷歌在非常多的领域都是开山鼻祖的这么一个角色和地位了。在广告方面也是这么一个地位,谷歌在当时使用了上千亿的特征,上千亿的训练数据,在一个线性模型上面获得了无与伦比的效果,即使在现在,深度学习风靡全球的情况下,这套模型仍然是非常非常优秀的一个机器学习模型。所以第二象限里面在工业界有非常成功的应用,为谷歌,为百度,为非常多公司的广告,每年都在创造上百亿甚至上千亿的价值。

▲ 第三象限是一个复杂模型,宏观特征的情况,如果大家熟悉的话,微软的Bing和雅虎里面比较重要的。第三象限,特征没有那么复杂,但是模型是复杂的,也能获得一个比较高VC维模型。

▲ 第四象限,复杂模型,微观特征,他的高VC维模型非常非常高,但是挑战非常大,因为它的模型实在太大,VC维太高,所以说也是一个非常热的研究领域。

如何沿着模型走?

我们可以看到有两条路,一条是特征这条路,一个是模型这条路,怎么沿着模型这条路走呢?

首先,我们怎么做一套复杂的模型出来呢?

学术界主导(ICML,NIPS,ICLR)

* 非线性的三把宝剑:Kernel,Boosting,Neural Network;

* 模型大部分单机可加载;

* 解决数据分布式问题,以及降低overhead;

工业界针对应用定制模型

* 基于思考或者观测得到假设;

通过观察我们企业内部的业务和数据,来做出一些假设,这些假设一般是数学模型的假设,把这些假设通过某种方式加入模型,最后在新的数据上验证这样的假设是不是对的。

* 加入新的模型、结构,以加入更多参数;

* 典型案例:伽利略;

如何沿着特征走?

如何沿着特征走,这条路基本上是工业主导的,因为工业界他的工程实现能力,他的架构比较强,所以他需要高效并行并保证快速的做这个事情。比如说KDD,WWW这样偏工业结合这样的工作比较多,这个里面基本上模型相对简单粗暴。

4.png

不存在万能模型

陈雨强表示,所有的机器学习本身就是一个偏置的。不管是深度学习,都是一个偏置的,如果我们用更多的模型假设,我们需要更少的数据。而如果我们用更简单的模型假设,我们需要更多的数据支持与特征刻画。

当然,不同的模型各有优缺点,比如偏置如果过大的话,它可能错。但是你还有另一种方法,你不做那么多假设,你把这个事情交给数据去做,让数据学出来,他的好处是,你假设越简单,你简单假设错的概率就越低,因为你没有什么假设。他的坏处你需要更多的数据,帮你拟合出这个复杂的特征。

所以,工业界机器学习没有免费的午餐,要做出对业务问题合适的选择,你是什么样的业务选择什么样的模型。并非机器学习一定比深度学习更好,所以一定要做出合适的选择,才是明智的做法。

工业界应用机器学习难题

5.png

需要AI应用平台

工业界应用机器学习到底有哪些难题除了有图片上的XN,大家直观的想法一定是需要一个AI平台。即使现在有很多开源工具,但其实我们发现这些工具并不足够。

为什么人工智能还没有真的大规模应用到每个企业?

这个要求就是说,我如果要做一个成功的AI系统,我一定要是一个AI的专家,这个要求我们原来的架构师,不仅要懂自己的架构方面的事情,我还要懂AI的事情,才能做这样的一个问题,这样的要求是非常高的,这样也导致AI非常难以落地。

特征工程:是一个根据你的模型找出最关键特征的过程叫做特殊工程。包括特征的清洗,特征的变换,特征的组合,和特征的二次工程这样一些事情。

特征工程是非常难的,并且特征工程需要根据你的模型,有非常大的区别,需要对你的业务有非常深刻的理解,所以工业界特征工程的难度,让很多人其实没有办法将机器学习直接应用到人工智能应用里面去。

陈雨强告诉我们,第四范式想做一个自动特征组合的事情,,调研下来发现有三条路:

一、隐式特征组合;主要指一些不是显式特征组合的方式进行特征组合,这种方式,对连续值组合特征天然比较友好。深度学习就是一个非常典型的隐式特征组合的工作。

二、半显式的特征组合;主要是它看起来是显式,但是他并不是做显式特征组合的方式。这个地方指的是我们的数,看起来每一条路径是一个特征组合,他指一堆特征变量在固定区间取值的组合,但是不是特征本身的组合,他的特点是效果比较好,但是它的特征组合其实只是复杂,并不是一个真正的做特征组合的方式。

三、显式特征组合;显式特征组合是个非常非常困难的问题,但是它的好处是可以叠加,因为它是特征工程,这个特征工程可以被应用到所可以应用到所有需要特征工程的地方去。

另外,陈雨强告诉我们,第四范式最近提出了一个FeatureGO的算法,这个算法是一个能够做高阶特征组合方法。这个方法体系下,我们做到了高至10阶,我们最多做到16阶的特征组合。这样的算法,基于MCTS的方法,我能知道在某一种特征组合下,它可能获得更好的效果的概率是什么样的。

人工智能的计算能力也是人工智能非常重要的一部分。传统上来说,大家只要说你做的模型是人工智能最重要的一部分,但是其实现在来说,人工智能的模型和计算能力,都是非常重要的一点。

最后,陈雨强认为,未来用机器换人,肯定是将来工业界人工智能发展的一个趋势。从这一点上,还有很多工作要做,去不断降低用户建模的门槛。