十五分钟简介人工智能,以听懂为目的

13,104 阅读10分钟

我从事人工智能相关的工作,有时候亲朋好友就问我,你那个人工智能到底是什么玩意?我一般不做解释,因为很难说清楚。

后来,我碰到一个做演讲的朋友,他了解了我的困惑之后,他给我布置了一个任务:用十五分钟讲完人工智能,只有一个要求,必须让你的受众可以听懂,哪怕只讲一个1+1=2!

于是,我就试着列了一个提纲,如果大家不懂的话,请给我反馈。

一、什么是人工智能?

人工智能,英文是Artificial Intelligence,缩写是AI。我们经常听到穿西装的人说AI、AI的,有时候指的是这个人工智能。如果,是穿嘻哈风的年轻人说AI,他们可能是说Adobe Illustrator。这是Adobe公司出的一款软件,用于图形设计,是PS(Adobe Photoshop)的兄弟产品,主要用于设计卡通形象,它的缩写也叫AI。

因此,当有高端精英趾高气扬地给你说AI的时候,你可以问他,你说的是Artificial Intelligence还是Adobe Illustrator。后面,他或许会老实一些。

今天,咱们说的是人工智能这个AI。人工智能是由美国人麦卡锡在1956年提出的。人工智能的本质是让机器能像人一样思考和行动。它主要通过模拟、延伸和扩展人的智能,从而形成一定的理论、方法、技术及应用的新技术科学。

概念就说这么多,下面看看它能做什么。

二、人工智能的应用

人工智能的应用领域很广,比如代替人眼的图像领域、代替人嘴的语言领域。从它的应用来看,确实是要代替人类的。

2.1 图像领域

首先来看一个图像分类,它能认识一个图像是什么。比如,认识下面这个图是香蕉。

再看一个,这个叫目标检测。相比于分类,它又更进了一步,它可以找出哪个位置有什么物体。比如,红框是苹果,蓝框是香蕉。

还可以更细致,下面这个叫语义分割。它可以判断出,哪一个像素属于什么物体。

这有什么用呢?炫技吗?自动驾驶用它呀。路上的落叶、石头、塑料袋,甚至是一个图钉,都是需要识别出来,以便于分析能不能通过。

其实,我们生活中最为常见的还是目标检测。

比如下面这张图,工地入口处,检测工人是否佩戴安全帽。

img_check1.GIF

前两天,我作为某大赛评委,看到了一个大学生做的一个作品,很有意思。

img_check2.GIF

它可以检测桃子是否成熟,是否有病虫害,还可以驱赶鸟类。这个正好用于振兴农业发展。

还有更常见的一个应用,那就是OCR识别。

下面这个可以把你的动作或者表情迁移到其他人身上(比如动漫人物)。

img_pose2.GIF

还有一个,我们也经常见,叫超分辨率。它可以用于旧图修复,能让模糊的图变清晰。

img_px.GIF

可以说,图像领域是人工智能应用范围最广的领域(我就不说之一)。

我们看到,人工智能确实起到了替代人工的作用。我们不妨把时间拉长,不知道大家还能不能回忆起来,原来每个停车场(包含路边)里,都有一个大爷,负责指挥停车,贴条计时,收费放行。现在,都被机器给取代了。

2.2 自然语言领域

除了图像领域,在自然语言领域,人工智能的应用也比较广泛。

自然语言处理(Natural Language Processing 简称NLP),翻译成通俗的词语就是:人话。它想让机器可以听懂人话,看懂人话,而且还能任意表达人话,不限于哪国话。总之,就是让机器人看书、写字、闲聊天,还能有所总结和感悟,就和我们人类一样。

看下面这个图。

nlp.GIF

这是机器人在自然语言处理方面的成果,这个叫问答系统

找来一篇文章,比如上面的例子,原文是:

TensorFlow是一个免费的开源软件库,用于跨一系列任务的数据流和可微分编程。它是一个符号数学库,也用于机器学习应用程序,如神经网络。谷歌将其用于研究和生产。TensorFlow由谷歌大脑团队开发,供谷歌内部使用。它于2015年11月9日在Apache License 2.0下发布。

那么,当机器学完了这段话之后。你就可以向他提问了。

你问它:TensorFlow是什么、什么是TensorFlow?

因为它学过。它就会回答:TensorFlow是一个免费的开源软件库……

除此之外,你问它谁发明的TensorFlow?这个它也学过,原文中有。它会回答说,是谷歌大脑开发的。

如果你问它,ITF男孩长得帅不帅?它就智障了。因为没学过。

你遇到的很多客服系统,不是AI技术不行,主要是没有那么多对话数据去学习。

除此之外,还有很多的应用。

分类简介应用场景
文本分类通过训练对一段文本的进行分类情感分类、舆论监控、文学体裁分类等
智能回复基于大量聊天消息训练,依据上下文的相关内容生成回复建议智能客服、聊天机器人、问答系统
语言翻译将一种语言的文本转换为另一种语言,同时保持含义完整英汉翻译、中日翻译、古文现代文翻译
文本生成基于大量文本训练,输出当前词语之后最大概率出现的文本输入法联想、文本自动补全、智能对联、自动写原创文章
信息提取获取明文公告,通过算法提取关键信息,辅助决策金融风控

2.3 更多领域

人工智能的应用领域很多。

各项技术可以相互结合,比如谷歌Imagen搞了一个语言加图像的应用,叫文本图像合成。说白了就是:我说你画。

我说:一个骑自行车的土狗,一个游泳的泰迪熊。然后,人工智能就能画出对应的图。

img_dog.png

这是小意思,可以再发挥点儿想象力,比如我说:一个火龙果在大雪天,成为了跆拳道黑带!

img_hlg.png

你以为这只是科研阶段吗?不是的。我写自媒体,我是看在眼里的。包括百度、头条等平台,已经上线了文章转视频的功能。只要有文字,就可以生成音频,可以生成视频,而且我就在使用。

img2video.png

但是,不管怎么结合,万变不离其宗,人工智能是由一些基础技术支撑的。

其他AI相关技术,都是通过使用这些基础技术发展起来的。这几个基础技术如下:

  • 机器学习:人工智能的核心,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
  • 知识图谱:用图模型来描述知识和建模世界万物之间关联关系的技术方法。这是先决条件,只有建立了行业知识图谱,才能给出行业AI方案。现在各家都在搞知识图谱,但是很少有真正实用的。
  • 自然语言:能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类等。
  • 人机交互:为完成确定任务的人与计算机之间的信息交换过程。例如:眼睛虹膜、眼动、掌纹、笔迹、步态、语音、唇读、人脸、DNA等。
  • 语音识别:是利用机器将语音信号转换成文本信息。
  • 图像视觉:用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理。

三、人工智能的发展阶段

人工智能有三个发展阶段:弱人工智能、强人工智能、超人工智能。

当前的话,人工智能还处于弱人工智能阶段。并且,这一阶段将维持较长的时间。

那位说了,这孩子说话,老卖关子。你倒是说啥样是强,啥样是弱啊。

3.1 弱人工智能

这是我们目前所处的阶段,你看到的人工智能,都是弱人工智能。

它只会计算和推断,只能解决某个具体问题。比如智能推荐购物、机器人客服、识别哈士奇与狼、自动作画、甚至战胜柯洁的AlphaGo等。

3.2 强人工智能

当走向强人工智能时,机器人就拥有了意识,拥有和人类一样的智能水平。换句话说,你和它一起生活,你发觉不出它是个机器人。

3.3 超人工智能

到了超人工智能,它就会像人类一样自己去学习。而且学习速度极快,几秒钟运算上亿次,几分钟可以超过人类几百年的积累,智能水平会远超过我们人类。

到时候,就不是我在这里编文章了。我比它差多了。我脑子里只有100本书,AI脑子里有全人类的知识。

四、我对人工智能的见解

4.1 人工智能的机会

现在大厂的AI平台太多了,还有必要自己做人工智能吗?个人还有机会吗?

有机会呀。大厂平台解决的是1000万人市场规模中70%的问题。自研人工智能可以解决垂直领域10万人市场95%的问题。大与小的辩证一直都存在。海洋里有大鱼存在,不代表虾米就会灭绝。

你在某一个极小的点上,做出超过大厂的效果,这在业内,真的一点也不奇怪。

4.2 人工智能的门槛

人工智能很难吗?

写到这个标题,估计有人预测我要卖课了,看着挺像,但并非如此。

做学术研究门槛确实高,但是做应用解决问题真的非常简单。

人工智能框架非常多,如果仅仅是做应用,了解了基本概念之后,几行代码就可以解决很多问题。国家也有计划在小学生中普及AI编程,可见它并不是很难。

4.3 人工智能的瓶颈

弱人工智能还要持续很长时间,限制人工智能发展的因素是什么?

业内普遍认为主要有3项:算力、算法和数据。

算力主要指计算机硬件设备。算法主要指人工智能的软件支持。

数据指提供人工智能分析和学习的素材。目前在信息化很发达的今天,数据依然不足以支撑人工智能实现质的飞越。主要原因是数据碎片化严重,各场景下的采集和归纳成本极高。

小数据仅仅能支撑小场景。比如自动驾驶,你搞一个你房间里的自动驾驶其实很简单,路线和物品基本都是固定的。你训练好了模型,在你屋里它可以自由走动,可以去次卧拿了物品放到主卧去。但是,你放到你们小区里,就不行了。放到全国、全球,就更智障了。虽然说,人工智能不是穷举所有场景,但是代表性的样本都来几条不过分吧。仅仅这个数量级,现在也是无法收集到的。

以上就是我讲的人工智能。

大家好,我是ITF男孩,在掘金是@TF男孩,一个IT男。带你从IT角度看世界。