算法｜别名采样法别名采样(Alias Method) 解决的问题从一个离散的概率分布中采样：给定$n$个对象$o_

别名采样(Alias Method)

参考资料：维基百科Alias method

解决的问题

从一个离散的概率分布中采样：给定 $n$ 个对象 $o_1,...o_n$ ，分别具有权重 $w_1,...,w_n$ ，对 $n$ 个对象进行加权采样，采样概率 $w_i=\frac{w_i}{\sum_{j=1}^{n}w_j}$ .

整篇文章以下述例子为例：

假设有3个对象 $o_1,o_2,o_3$ ，其权重为 $w=[1,2,3]$ ，总权重和为6，归一化权重为 $p=[\frac{1}{6},\frac{2}{6},\frac{3}{6}]$ ，要求分别以 $\frac{1}{6}$ 、 $\frac{1}{3}$ 、 $\frac{1}{2}$ 的概率采样 $o_1,o_2,o_3$ 。

算法步骤

Alias方法相当于有 $n$ 个桶，每个桶内最多有两个元素 $o_i$ 和 $o_i$ 的别名。优先处理小权重对象，用大权重对象补齐。确保每个桶的权重相同，采样时先均匀采样桶，再在桶内采样两个元素。

预处理

预处理阶段构造两张表：概率表 $U_i$ 和别名表 $K_i(1<=i<=n)$ 。

首先将概率表初始化为 $U_i=np_i$ ，由此将表中的元素分为三类：

“溢满”组： $U_i>1$
“不满”组： $U_i<1$ 且 $K_i$ 尚未初始化
“恰好”组： $U_i=1$ 或 $K_i$ 已被初始化

若 $U_i=1$ ，则令 $K_i=i$ ，即 $o_i$ 的别名就是自己。

只要不是所有的元素都在“恰好”组，就重复执行以下步骤：

任意从“溢满”组和“不满”组各选择一个元素 $U_i>1$ 和 $U_j$ <1。（若其中一个存在，则另一个也必然存在。）
设置 $K_j=i$ ，即 $o_j$ 的别名设置为 $o_i$ 。
将 $U_i$ 更新为 $U_i-(1-U_j)$ 。
$o_j$ 现在应该归为“恰好”组。
对于 $o_i$ ，根据更新后的 $U_i$ ，将其分在恰当的组中。

例子中首先将概率表初始化为:

$U_1$	$U_2$	$U_3$
0.5	1	1.5

$o_1$ 属于“不满”组， $o_2$ 属于“恰好”组， $o_3$ 属于“溢出”组。因此，令 $K_2=2$ 。

从“溢满”组和“不满”组各选择一个元素 $o_3$ 和 $o_1$ ，设置 $K_1=3$ ，更新 $U_3=U_1+U_3-1=1$ 。

$U_1$	$U_2$	$U_3$
1	1	1

此时， $o_1$ 应该归为“恰好组”， $o_3$ 也归为“恰好”组。此时所有元素都在“恰好”组，算法结束，构建的概率表和别名表如下：

$U_1$	$U_2$	$U_3$
0.5	1	1

$K_1$	$K_2$	$K_3$
3	2	3

预处理过程每一轮迭代至少使一个元素进入“恰好”组。因此，至多经过 $n-1$ 轮迭代后，该过程必然终止。每一轮迭代可在 $O(1)$ 时间内完成，从而生成表的过程可在 $O(n)$ 时间内完成。

采样

根据概率表 $U_i$ 和别名表 $K_i$ 进行采样。首先均匀采样表内索引，然后根据概率表索引位置进行一次有偏硬币抛投实验，从而确定结果是 $i$ 还是 $K_i$ 。具体来说：

输出一个均匀的随机变量 $0<=x<1$ 。
记 $i=\lfloor nx \rfloor+1$ 及 $y=nx+1-i$ 。（此时 $i$ 均匀分布于{1,2,...,n}， $y$ 均匀分布于 $[0,1)$ 。）
如果 $y<U_i$ ，则返回 $i$ 。
否则，返回 $K_i$ 。

例子中：若 $x=0.8$ ，则 $i=3$ ，直接返回 $o_3$ （ $o_3$ 的别名是它自己）；

若 $x=0.5$ ，则 $i=2$ ，直接返回 $o_2$ （ $o_2$ 的别名是它自己）；

若 $x=0.8$ ，则 $i=3$ ，直接返回 $o_3$ （ $o_3$ 的别名是它自己）；

若 $x=0.1$ ，则 $i=1$ ， $y=0.3<U_1$ ，返回 $o_1$ ；

若 $x=0.3$ ，则 $i=1$ ， $y=0.9>=U_1$ ，返回 $o_3$ （ $o_1$ 的别名是它 $o_3$ ）。

每次采样时间复杂度为 $O(1)$ 。

其他采样算法

朴素方法：直接累加权重并线性搜索

步骤：

计算归一化权重的前缀和 $[w_1, w_1+w_2, w_1+w_2+w_3]=[1,3,6]$
生成一个随机数 $r\in[0,w_1+w_2+w_3)$
在前缀和中线性查找 $r$ 所在区间：若 $r<1$ ，则采样 $o_1$ ；若 $1<=r<3$ ，则采样 $o_2$ ；若 $3<=r<6$ ，则采样 $o_3$

时间复杂度：

预处理前缀和的时间复杂度为 $O(n)$ ，每次采样线性搜索时间复杂度为 $O(n)$ ，对于 $m$ 次采样，总时间复杂度为 $O(n+mn)$

二分搜索法

步骤：

预处理前缀和数组，和朴素方法一样。
使用二分搜索快速找到随机数 $r$ 所在区间

时间复杂度：

预处理 $O(n)$ ，每次采样 $O(logn)$ ，对于 $m$ 次采样，总时间复杂度为 $O(n+mlogn)$

优势

对于 $m$ 次采样，别名采样法总时间复杂度为 $O(n+m)$ 。当 $n$ 很大且采样次数较多时，Alias方法比朴素方法和二分搜索法快很多。

算法 ｜ 别名采样法