《Discrete-Time Markov Control Processes》Chapter 1学习笔记

295 阅读2分钟

Perface

但大多数文献(例如至少90%)都集中在MCP上,对于这些MCP,

(a)状态空间是可数集,the state space is a countable set

(b)每阶段成本是有界的,the costs-per-stage are bounded

( c)控制约束集是紧凑的,the control constraint sets are compact

但是很多情况下无法满足所有三个条件,所以本书就是为了削弱这三个条件。

阅读本书需要 real analysis 和 measure-theoretic probability 的知识

在本卷中,我们将重点介绍MCP的基本最优准则,即有限地平线问题,以及具有折扣成本准则和长期平均成本的无限地平线情况。

全文分为六章。

第1章对MCPs和一些相关概念进行了非正式介绍,并在第2章中进行了形式化描述.

第3章讨论了finite-horizon problems。 它特别包含Dynamic Programming (DP)定理的证明,以及该定理中要求的"measurable selection condition"的分析。 其余章节介绍了infinite-horizon problems。

第4章讨论了α-discounted cost (abbreviated α--DC) criterion; 证明了相应的DP定理以及几种近似程序的收敛性,包括值迭代和策略迭代。还提出了几种最优性和渐近最优性准则。

第5章涉及long-run average-cost (AC) problems。 给出了交流最优不等式和交流最优方程解的存在性的条件,这反过来又给出了交流最优控制策略的存在。对值迭代过程和其他AC优化标准进行了分析。

第6章介绍了MCP的linear programming (LP)公式。 在对无穷维向量空间中的LP进行简要介绍之后,对折价成本和平均成本问题都进行了研究,强调了DP可被视为LP方法的“双重”这一事实。

1 Introduction and Summary

1.1 Introduction

In an optimal control problem,我们有如下几个术语:

  • control or action or decision variables
  • control policies
  • performance criterion

the optimal control problem is to determine a control policy that optimizes (Le., either minimizes or maximizes) the performance criterion.

optimal control problem的分类:

Here we are concerned with a class of discrete-time, stochastic control systems known as Markov control processes (hereafter abbreviated MCPs)

1.2 Markov control processes

一个 discrete-time Markov control model 由五个部分组成:

transition law:

还有 policy \pi=\left\{a_{t}\right\}

值得注意的是下面这种引入“noisy”的一种表示方式

在这种情况下,transition law Q :

如果是no noisy的系统,则:

介绍了两种 cost function :

the expected total discounted costthe long-run expected average cost per unit time

由于 average cost 极限不能保证存在,所以用上下界来表示: