强化学习
- 强化学习(Reinforcement learning,RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
- 强化学习的思想源于行为心理学(behaviouralpsychology)的研究。1911年Thorndike提出了效用法则(LawofEffect):一定情境下让动物感到舒服的行为,就会与此情景加强联系,当此情景再现时,动物的这种行为也更易再现;相反,让动物感觉不舒服的行为,会减弱与此情景的联系,此情景再现时,此行为将很难再现。换句话说,那种行为会被记住取决于该行为产生的效用。例如:在主人扔出飞盘时,狗叼回飞盘给主人的行为获得了肉骨头,将会使得“狗叼回扔出的飞盘”这个行为和“主人扔出飞盘时”这个情景加强了联系,“获得肉骨头”的效用将使狗记住“叼回扔出的飞盘”的行为。
- 在给定情境下,得到奖励的行为会被“强化”而受到惩罚的行为会被“弱化”。这样一种生物智能模式使得动物可以从不同行为尝试获得的奖励或惩罚学会在该情境下选择训练者最期望的行为。这就是强化学习的核心机制:用试错(trail-and-error)来学会在给定的情境下选择最恰当的行为。Sutton定义强化学习为:通过试错学习如何最佳地匹配状态(states)和动作(actions),以期获得最大的回报(rewards)。
- 强化学习不仅直接模仿了生物学习的智能模式,而且也不像其它大多数机器学习方法中,智能体需要被告诉去选择哪种动作,使用强化学习方法的智能体能够通过尝试不同的动作,自主地发现并选择产生最大回报的动作。正如Tesauro所描述的那样:强化学习使得智能体可以根据自己的经验进行自主地学习,既不需要任何预备知识也不依赖任何外部智能“老师”的帮助。
环境和感知
强化学习中的基础概念
- 两个对象
- 智能体
- 环境
- 主要元素:
- Action,根据状态做当前时刻的动作;
- Policy,根据状态做出决策,控制agent做动作;
- Reward,环境基于当前动作给出的奖励;
- Return,回报(所有时刻的奖励和)。
强化学习算法分类
- 强化学习算法根据寻找最优策略的过程不同可以大致分为两个方向:
- 第一个方向:直接求解最优策略:这一类算法是在与环境交互的过程中,直接优化最优策略函数。
- 第二个方向:间接求解最优策略:这一类算法是最常见的一种,是通过间接求取其他指标,根据这些指标的结果来推导出最优策略。
强化学习模型-下棋
生成对抗网络
- 生成对抗网络(GenerativeAdversarialNets)是一种框架,通过对抗过程,通过训l练生成器G和判别器D。两者进行的博弈,最终使判别器无法区分样本是来自生成器伪造的样本还是真实样本。
- 生成器的任务是生成看起来像训练图像的“假”图像。
- 判别器需要判断从生成器输出的图像是真实的训练图像还是虚假的图像。
- 生成对抗网络可应用于图像生成、文字生成、语音去噪、图像超分辨等场景。
- 生成器G:输入“噪声”z(z服从一个人为选取的先验概率分布,如均匀分布、高斯分布等)。采用多层感知机的网络结构,用最大似然估计(MLP)的参数来表示可导映射G(⑵),将输入空间映射到样本空间。
- 判别器D:输入为真实样本x和伪造样本G(z),并分别带有标签real和fake。判别器网络可以用带有参数多层感知机。输出为判别样本是否为真实样本数据的概率D(G(z)。
GAN训练过程
- 在上图中,蓝色虚线表示判别器,黑色虚线表示真实数据分布,绿色实线表示生成器生成的虚假数据分布,z表示隐向量,x表示生成的虚假图像G(z)。
- 在训练刚开始的时候,生成器和判别器的质量都比较差,生成器会随机生成一个数据分布。
- 判别器通过求取梯度和损失函数对网络进行优化,将靠近真实数据分布的数据判定为1,将靠近生成器生成出来数据分布的数据判定为0。
- 生成器通过优化,生成出更加贴近真实数据分布的数据。
- 生成器所生成的数据和真实数据达到相同的分布,此时判别器的输出为1/2。
GAN的应用
- 生成图像数据集。
- 图像到图像的转换。
- 提高照片分辨率,让照片更清晰。
- 文字到图像的转换。
- 人工智能的训练是需要大量的数据集的,如果全部靠人工收集和标注,成本是很高的。GAN可以自动的生成一些数据集,提供低成本的训练数据。
- 把一种形式的图像转换成另外一种形式的图像,就好像加滤镜:把照片转换成油画。
GAN-照片修复
- 假如照片中有一个区域出现了问题(例如被涂上颜色或者被抹去),GAN可以修复这个区域,还原成原始的状态。
知识图谱概述
- 知识图谱(KnowledgeGraph)本质上是语义网络(Semantic Network)的知识库,它以结构化的形式描述客观世界中各种概念、实体及其之间的关系,以此构成一张巨大的语义网络,节点表示实体,边由其属性或实体间关系构成。
- 实体(Entity):实体是存在于现实世界中并且可与其他物体区分开来的物体。
- 属性(Property):我们把一个具体事物的性质与关系,都叫做事物的属性。
- 概念:具有同种特性的实体构成的集合。
- 本体:本体是某个领域中抽象概念的集合,能够描述某个范围内一切事物的共有特征及事物间的关系。
- 语义网络(semanticnetwork)提出于上世纪6o年代,是一种用图来表示知识的结构化方式。由相互连接的节点和边组成,节点表示概念或者对象,边表示他们之间的关系。
- 知识库的概念来自两个不同的领域,一个是人工智能及其分支-知识工程领域,另一个是传统的数据库领域。由人工智能和数据库两项计算机技术的有机结合。知识库是基于知识且具有智能性的系统。
- 举例:
- 概念:国家
- 实体:中国,俄罗斯……
- 实体的属性:首都-接连实体(中国的首都是):北京-(实体)北京的属性:纬度,经度……-数据:经度:东经116.20;纬度:北纬38.56
- 知识图谱的基本单位是“实体-关系-实体”构成的三元组
- 本体类似于一套概念的集合。
知识图谱的历史
- 知识图谱是知识工程在当前人工智能发展阶段的较为成熟的应用“果实”。
- 知识工程发展的五个阶段:
- 前知识工程时期(20世纪50年代-70年代)
- 专家系统时期(20世纪70年代-90年代)
- 万维网1.0时期(20世纪90年代-21世纪初)
- 群体智能时期(2000年-2006年)
- 知识图谱时期(2006年-至今)
- 知识图谱时期,大规模结构化的百科类网站蓬勃发展和文本信息提起技术的不断进步为得到大规模知识提供了条件。
- Google率先在2012年将知识图谱应用于搜索引擎,成功提升了用户的搜索质量及搜索体验。
- 发展历程介绍可参考《人工智能之知识图谱》P3-5
- 1960年提出了语义网络,作为知识表示的一种方式,主要帮助理解人类语言,最典型的应用是WordNet,从不同维度表达词与词的语义关系
- 1980年提出了本体论,先定义本体,再定义本体之间的关系,最典型且成熟的应用是专家系统
- 1989年提出万维网
- 1998年从超文本链接到了语义链接,即对每一个网页加上语义的含义
- 2012年,Google提出了知识图谱这一概念,目的是提升其系统的搜索效果
知识图谱的构建流程
- 一般的知识图谱的构建流程通常是:
- 确定领域:一个大的知识图谱不一定是好的知识图谱。
- 知识映射:知识映射是建立从基础数据抽取出的结构化信息与知识图谱本体的映射关系,例如抽取出的有关电影结构化信息与图谱本体映射关系川知识映射是指建立两个
- 数据模型,利用相关语言或技术将模型之间的元素进行关系的链接形成网状结构。比如从关系型数据库→图谱(也可直接到非关系型数据库,比如图数据库),可介绍图数据库相关知识。
- 知识融合:数据存在重叠、不一致等特定时进行的数据处理,实体消歧
- 部分知识可参考:support.huaweicloud.com/productdesc…
- 图数据库:支持百亿级别数据存储、高性能高效查询、在线实时更新
- 自然语言处理:从结构化的数据库及半/非结构化的文本、语音、视频中抽取知识
- 人工智能:利用知识库模拟大脑思考,理解人类语言
- 结构化数据:酒店名、酒店地址、客房数等非结构化数据:语音、视频或者酒店简介从中抽取关键信息(比较酒店整洁靠近火车站等)半结构化数据:比如简历这类,每个人的简历复杂情况都不一样,有的人存在工作经历少、也有的人工作经历多。有的人存在某项技术技能,也有人没有。以及存在一些信息系统也无法预料的信息。
知识图谱应用场景
- 以下列举几个目前比较常见的应用场景:
- 精准推荐:配合知识图谱,推荐系统形成用户画像,达成精准推荐。
- 语义搜索:华为Petal搜索引擎、别的搜索引|擎能够精确定位你搜的知识。
- 智能对话机器人:Siri,小度小度,Cortana。
油气知识计算
- 石油领域的图谱示例图,可以看到有油井、储层、区块等实体类型,油井还有自己的属性信息。
- 通过搭建这样一个统一的知识图谱,一方面可以用来提供统一的知识库入口,搜索问答这种,也能够结合图谱表征用到其他场景的模型中。
智能驾驶
智能驾驶的发展历史
智能驾驶,将使人类社会的自由达到“新高度”
- 持续迭代,零事故、零伤亡:90%以上的的事故是由于人为因素和醉酒驾驶导致的,更便捷的出行:提高交通效率,减少行驶和停车的时间,同时将使得老年人、残疾人和小孩可以得到出行的便利,第三生活空间,彻底解放出行,可以在车上休息、办公、娱乐等等。