1.2.1 概率密度
除了考虑在离散时间集上定义的概率外,我们还希望考虑关于连续变量的概率。我们将仅限于相对非正式的讨论。如果实值变量x落在区间(x,x+δx)内的概率由p(x)δx表示δx→0,那么p(x)称为x上的概率密度。如图1.12所示。x位于区间(a,b)内的概率由下式给出:
p(x∈(a,b))=∫abp(x)dx(1.24)
因为概率 是 非负的,并且因为x的值必须位于实轴的某个位置,所以概率密度p(x)必须满足这两个条件
p(x)≥0(1.25)
∫−∞∞p(x)dx=1(1.26)
在变量的非线性变化下,由于雅可比因子,概率密度变换不同与简单函数。例如,如果我们考虑变量x=g(y)的变化,那么函数f(x)变为f(y)=f(g(y))。现在考虑概率密度px(x),其对应于相对于新的变量y的密度py(y),其中足够表示px(x)和py(y)是不同密度的事实。对于较小的δx的值,位于(x,x+δx)范围内的观测值将转换为(y,y+δy)范围,其中px(x)δx≃py(y)δy,因此
P(z)=∫−∞zp(x)dx(1.28)
它满足P′(x)=p(x),如图1.12所示。

图 1.12 离散 变量的概率概率 可以扩散为连续变量x上的概率密度p(x),并且使得位于区间(x,δx)的x的概率由δx的p(x)δx给出δx→0。概率密度可以表示为累计分布函数P(x)的导数。
如果我们有几个连续变量x1,...,xD,用向量x表示,那么我们可以定义联合概率密度p(x)=p(x1,...,xD)使得x落入包含点x的无穷小体积δx中的概率由p(x)δx给出。这个多元概率密度必须满足
p(x)≥0(1.29)
∫p(x)dx=1(1.30)
其中的积分是对整个x空间的积分。我们也可以考虑联合概率分布在离散变量和连续变量上的组合上。
注意,如果x是一个离散变量,那么p(x)有时被称为概率质量函数,因为它可以视为一组集中在x允许值处的 “概率质量”。
概率和积规则以及贝叶斯定理同样适用于概率密度的情况,或离散变量和连续变量的组合。例如,如果x和y是两个实变量,那么求和规则和乘积规则的形式为
p(x)=∫p(x,y)dy(1.31)
p(x,y)=p(y∣x)p(x)(1.32)
连续变量和积规则的形式证明需要一个称为测量理论的数学分支,不在本书的范围内。然而,通过将每个实变量划分为宽度区间,可以非正式地看出它的有效性Δ考虑这些区间上的离散概率分布。走极限Δ→0然后将求和转换为 积分并给出所需的结果。