在上一篇文章中,我 简要介绍了强化学习。今天,我将通过介绍马尔可夫过程来帮助您继续您的旅程,在讨论强化学习中使用的马尔可夫决策过程 (MDP) 之前,我们需要了解它。
到最后,您将掌握以下基本知识:
- 什么是马尔可夫性质和马尔可夫链;
- 马尔可夫财产如何运作;
- 马尔可夫链如何将马尔可夫属性付诸行动。
介绍马尔可夫过程
为了开始我们的讨论,让我们首先列出一些关键术语及其在维基百科中的定义。然后我们再深入一点。
马尔可夫特性 : 在概率论和统计学中,术语马尔可夫特性指的是随机(或随机确定)过程的无记忆特性。
马尔可夫链 : 马尔可夫链是描述一系列可能事件的随机模型,其中每个事件的概率仅取决于前一个事件所达到的状态。
扩展马尔可夫性质
为了加深我们对马尔可夫性质的理解,我们可以这样看:
P(X(t+1)=j|X(0)=i0,X(1)=i1,…,X(t)=i)=P(X(t+1)=j|X(t) =我)
换句话说,该公式表示一种情况,其中X在时间t+1的状态仅取决于X在时间t的一个先前状态,而与过去的状态X(t−1), …, X(1 ) 。
现在让我们通过一个简单的例子来进一步说明这一点。
根据 Markov Property,在字符串“easy”中,我们有:
- P(x3=y | x0=e, x1=a, x2=s) 表示当e出现在时间0 , a出现在时间1,s出现在时间2时, y出现在时间3的概率
- P(x3=y|x2=s)表示当 s出现在时间2时y出现在时间3的概率
因此,在上面的等式中,假设y 仅依赖于先前的邻居状态 s 而独立于 e 和 a,马尔可夫性质使得 P(easy) 更容易计算。这意味着当生成 “easy” 中的y时,我们只关心从s到y的转移概率,而不是从eas到y的转移概率。
当然,我们知道它在现实世界中可能不会像这样工作,但这个假设仍然有用。它帮助我们使复杂的情况变得可计算,并且在大多数情况下它工作得很好。
了解马尔可夫链
当我们将马尔可夫属性用于随机过程时,我们称其为马尔可夫链。
图 1:马尔可夫链
这是马尔可夫链的公式化定义:
使用上面的图 1,我们可以演示马尔可夫链如何生成单词。
假设我们分别从状态e、a和t 开始, 概率分别为 40%、30% 和 30%。根据 Markov Property,一个字符串可以一个字母一个字母地生成——只考虑它之前的字母。
例如,我们有 40% 的概率在时间 0 从e开始。然后我们在时间 1 从状态e移动到状态a以获得ea。为了得到单词eat,我们在时间 2 直接从状态a移动到状态t,而不考虑更早的状态e。
通过上面的计算,我们可以看到这条马尔可夫链给eat和tea的评分一样高,而aet的评分最低。该公式表明eat和tea更像是词,而aet似乎根本不是一个词。
概括
在马尔可夫的简短介绍中,我们了解到:
- 马尔可夫属性和链是如何定义的。
- 马尔可夫属性如何计算单词概率。
- 马尔可夫链如何生成单词。