写在前面：该算法

目的是在HUI-Miner算法的基础上提高效率，关键在于两个新上界：revised sub-tree utility、local utility来压缩高效检索空间。
并且通过快速效用值计算算法FAC(Fast Utility Counting)来在线性时间内获取上界值和检索空间。
更进一步，通过HDP(High-utility Database Projection)和HTM(High-utility Transaction Merging)在线性时间内完成对数据库的映射和事务归并。

EFIM: A Fast and Memory Efficient Algorithm for High-Utility Itemset Mining

样例

事务数据库

扩展效用值

高效效用值项集

枚举树

定义

HUI-Miner算法

$p(i)$ ：i是项，p(i)是外部效用值，代表着该项对用户的相对重要性，也可以看作是该项的利润
$q(i, T_c)$ ：是内部效用值，也可以看作是该项i的交易数量
$u(i, T_c)$ ：是在某个事务T中的项i所产生的总利润，即 $u(i, T_c) = p(i) * q(i, T_c)$
$u(X, T_c)$ ：是项集X在某个事务T中所产生总利润和，即 $u(X, T_c) = \sum_{i \in X}u(i, T_c) \cup[X \not\subseteq T_c \Rightarrow u(X, T_c) = 0]$ 。例如项集 $u(\{a, c\}, T_2) = u(a, T_2) + u(c, T_2) = 5 \times 2 + 1 \times 6 = 16$
$g(X)$ ：是包含项集X的事务集，投影映射 $g: 2^t \rightarrow 2^D, g(X) = \{ t \in D | \forall i \in X, i \in t \}$ ，称g(x)为项集 $X \subseteq I$ 的支持集
$u(X)$ ：找出所有包含项集X的事务集T，求项集X在这些事务T可以产生的总利润和，即 $u(X) = \sum_{T_c \in g(X)}u(X, T_c)$ 。例如项集 $u(\{a, c\}) = u(\{a, c\}, T_1) + u(\{a, c\}, T_2) + u(\{a, c\}, T_3) = 28$
$tu(T_c)$ ：求某个事务T内所有项集X的总利润和，即 $tu(T_c) = \sum_{X \subseteq T_c}u(X, T_c)$
$twu(X)$ ：求包含项集X的所有事务T的总利润和，即 $twu(X) = \sum_{X \subseteq T \cup T_c \subseteq T}u(X, T_c)$

定理：

$twu(X) \ge u(X)、twu(X) \ge u(Y)[\forall X \subset Y]$ （TWU具备反单调性）故当twu(X) < minutil，则直接忽略项集X的超集Y

证明：

$twu(X) = \sum_{T_c \in g(X)}tu(T_c) = \sum_{T_c \in g(X)}\sum_{x \in T_c}u(x, T_c)$

$u(X) = \sum_{T_c \in g(X)}u(X, T_c) = \sum_{T_c \in g(X)}\sum_{x \in X}u(x, T_c)$

这两个推导式看起来好像一样，但在最终 “x” 的所属范畴确是这两者间的最大差别，显然 X 是 Tc 的子集，自然上式成立

当项集X 是项集Y 的子集时，X 内的项数量小于 Y，但 twu(X) 计算的是那些包含整个项集X 的事务项的总效用值，随着项集X的规模扩大，能够符合twu计算条件的事务项就越少，故有 twu(X) >= twu(Y) >= u(Y)
$re(X, T_c)$ ：是在各事务项中大于项集X的所有项的效用值之和，即 $\sum_{i \in T_c \land i \succ x \land \forall x \in X}u(i, T_c)$
效用表(Utility-list)构成： $(T_c, iutil[u(X, T_c)], rutil[re(X, T_c)])$
剩余效用边界(remaining utility upper-bound)：这个概念是区别于“两步走”算法的关键之处，因为这个边界值比 TWU 是更为紧凑，能够裁剪更精细。定义为 $reu(X) = re(X) + u(X)$

定理：

如果reu(X)<minutil，则项集X和它的超集都是低效用值项集

证明：

设项集X和它的超集Y，事务项T，其中有关系 $X \subset Y \subseteq T \Rightarrow (Y \setminus X) \subseteq (T \setminus X)$ 当把所有包含项集X的事务项都计算起来，自然可知当 reu(X) < minUtil，那么超集必然也小于，那么

$u(Y, T) = u(X, T) + u(Y \setminus X, T) = u(X, T) + \sum_{i \in (Y \setminus X)}u(i, T)$ $\le u(X, T) + \sum_{i (\in T \setminus X)}u(i, T) = u(X, T) + re(X, T) = reu(X, T)$

Ps. 结合上面的定义9也可以看出来，其实 Y\X 就是所有大于项(集)X的项组成的剩余项集

EFI-Ming算法

$E(\alpha)$ ：表示根据深度优先搜索遍历所有项，得到大于 $\alpha$ 的所有项集，有 $E(\alpha) = \{ z | z \in I \land z \succ x, \forall x \in \alpha \}$ ，如Fig.1，设 $\alpha = \{c\}$ ，则 $E(\alpha) = \{a, b, d\}$
扩展项集(Extension of an itemset)：设项集 $Z$ 是项集 $\alpha$ 的扩展，若 $Z = \alpha \cup W$ 且 $W \in 2^{E(\alpha)}$ ，则有 $W \ne \varnothing$ 且 $Z$ 是项集 $\alpha$ 的子树和枚举树
一元扩展项集(Single-item extension of an itemset)：设项集Z是项集 $\alpha$ 的一元扩展，若 $Z = \alpha \cup W$ ，则 $Z$ 是项集 $\alpha$ 的子树和枚举树

Ps.例子：假设 $\alpha = \{ d \}, E(\alpha) = \{ e, f, g \}$ ，那么一元扩展项集就是 $\{d, e\}、\{d, f\}、\{d, g\}$ ，多元扩展集为 $\{d, e, f\}、\{d, f, g\}、\{d, e, f, g\}$
映射事务(Projected transaction)：由 $\alpha$ - $T = \{ i | i \in T \land i \in E(\alpha) \}$ 表示，其中T是事务项， $\alpha$ 是项集， $E(\alpha)$ 是扩展项集（处理一行事务项，也就是该事务项排在项集α的之后的项组成的新的事务项）
映射数据库(Projected database)：由 $\alpha$ - $D = \{ \alpha$ - $T | T \in D \land \alpha$ - $T \ne \varnothing \}$ 表示，其中D是数据库， $\alpha$ 是项集，T是事务表（处理多行事务项，也就是对整个事务表进行映射事务处理，组成一个新的数据库）

Ps. 当某交易项不包含指定的项集α，那么在映射过程中会删除这个交易项
相同的事务(Indentical transaction)：当 $T_a、T_b$ 两个交易项的所有的项元素都相同时，我们认为事务项 $T_a$ 和事务 $T_b$ 是相同的事务
归并事务(Transaction merging)：当在数据库D中存在相同的事务项 $T_{r1}、T_{r2} \dots T_{rm}$ 时，我们设置一个新的事务 $T_M$ 来替代这些，且每项 $i \in T_M$ 都被定义为 $q(i, T_M) = \sum_{k = 1 \dots m}q(i, T_{rk})$
映射归并交易(Projected transaction merging)：在映射数据库 $\alpha$ - $D$ 中，将所有重复的事务项 $T_{r1}、T_{r2}、\dots T_{rm}$ 用一个新的事务项 $T_M$ 来替代，且每项 $i \in T_M$ 都被定义为 $q(i, T_M) = \sum_{k = 1 \dots m}q(i, T_{rk})$
交易项总顺序(Total order on transactions)：我们用 $\succ_T$ 来表示，有以下四种情况则判定成立：
- $T_b$ 的TID全都大于 $T_a$ 的TID，则 $T_b \succ T_a$
- 当 $k > m$ 且 $i_{m-x} = j_{k-x}$ 且对 $\forall x \in Z, 0 \le x < m$ ，则 $T_b \succ_T T_a$
- 当 $\exists x$ 且 $0 \le x < y < min(m, k)$ ，有 $j_{k-x} \succ i_{m-y}$ 和 $i_{m-y} = j_{k-y}$ 成立，则 $T_b \succ_T T_a$
- 其它情况是 $T_a \succ_T T_b$
第一阶梯项(Primary items)：设存在项集 $\alpha$ ，那么有 $Primary(\alpha) = \{z|z \in E(\alpha) \land su(\alpha, z) \ge minuti\}$
第二阶梯项(Secondary items)：设存在项集 $\alpha$ ，那么有 $Secondary(\alpha) = \{z | z \in E(\alpha) \land lu(\alpha, z) \ge minutil \}$
修正子树效用值(Redefined Sub-tree utility)：设存在项集 $\alpha$ 和项 $z$ ，重新定义的 $su(\alpha, z) = \sum_{T \in g(\alpha \cup \{z\})}[u(\alpha, T) + u(z, T) + \sum_{i \in T \land i \in E(\alpha \cup \{z\} \land i \in Secondary(\alpha))}u(i, T)]$

Ps.因为有 $lu(\alpha, z) \ge su(\alpha, z)$ ，所以 $Primary(\alpha) \subseteq Secondary(\alpha)$ ，意味着只需检索以 $Primary(\alpha)$ 中的子项集与 $\alpha$ 的并集为根结点的子树，且其它项集不做考虑。例如项 α = {a}，Primary(α) = {c, e}，Secondary(α) = {c, d, e}，这意味着对于项集 α，我们只要检索以 α∪{c} 和 α∪{e} 为根节点的子枚举树，并且在这两个枚举树中，除了项c、d、e，其它的项都不考虑

四个关键点

需要设计一种单一算法来避免因产生候选项集问题-Utility List
通过使用“模式增长方法”来避免多花时间去考虑数据库中那些可能不会出现的模式，而且算法要减少对数据库的扫描-HDP & HTM
通过设计一个紧凑的上界来缩小检索空间，且这个上限应该比当下算法中通过保留有效上界更紧凑-local utility & revised sub-tree utility
算法在时间和空间上的操作都要尽可能地简单-FUC

HDP（High-utility Database Projection）

采用该技术的目的是通过某个项来投影出更小的数据库，达到减少扫描量的效果

原理：

当一个项集 $\alpha$ 出现在深度优先遍历结果中，存在项集 $x \notin E(\alpha)$ 时，通过扫描数据库在 $\alpha$ 的子树或效用值上界中，可以不用计算这些项集x的效用值。我们称这种删除后的数据库为投影数据库(projected database)，同理还有投影事务(projected transaction)

方法：

按照“ $\succ$ ”关系对源数据库的每个交易项目进行升序排序
每个投影事务由对应的源交易上的偏移指针来表示，也称为伪投影

HTM(High-utility Transaction Merging)

采用该技术的目的通过减小数据库规模来减少对数据库扫描的开销

原理：

交易数据库中常常包含重复的交易信息(Identical transaction)，本技术需要找出这些相同的交易信息，然后在梳理它们效用值得过程中只保留一条交易信息

方法：

找出相同的交易信息(Identical transaction)，进行归并处理，用一个新的交易项 $T_M$ 来代表这些重复的
对映射数据库做同样的处理，称为映射归并交易(Projected transaction merging)
最后得出交易总订单(Total order on transaction)，这之间的交易项集是按序从小到大排列

Ps.以上两个技术是配套使用的：“归并 -> 投影 -> 归并 -> 投影 -> ...”，一边通过归并使得共同前缀不断增长(上界)，一边投影事务表(缩小，因为有共同前缀，那么前缀就可以暂时不考虑)

排序 $\succ_T$

其实在每次投影开始前，都要对交易表进行交易项排序，这样是在一定程度上提高投影和归并效率，不必重复扫描数据项

排序判定有以下四个标准，我们设有交易项 $T_a = \{i_1, \cdots, i_m\}, T_b = \{j_1, \cdots, j_k\}$ ：

当 $m = k, \forall x \in [0, m|k]$ ，有 $i_x = j_x$ ，但是 b > a，则 $T_b \succ_T T_a$ （翻译一下就是从后往前依次对比两个交易项的各项元素，发现两个交易项一模一样，差别就是交易项b的角标数字大于交易项a，所以交易项b大于交易项a）
当 $\forall x \in [0, m)$ ，若 $k > m, i_{m-x} = j_{k - x}$ ，则 $T_b \succ_T T_a$ （翻译一下就是从后往前依次对比两个交易项的各项元素都相等，但交易项a没交易项b长，所以交易项b大于交易项a）
当 $\forall x \in [x, min(m, k)), y \in (x, min(m, k))$ ，有 $i_{m-y} = j_{k-y}, j_{k-x} \succ i_{m-x}$ ，则 $T_b \succ_T T_a$ （翻译一下就是从后往前依次对比两个交易项的各项元素，发现比到一个位置n这两个项元素有 $j_n \succ i_n$ ，所以交易项b大于交易项a，类似于比较字符串字串大小一样）
其它情况统统设定为 $T_a \succ_T T_b$

以下两个概念是定义了新的上边界值，不同于 Remain Utility 和 Transaction Weighted Utilization 这两个上边界值，他们分别是在搜索枚举树中的项目集α的子树中定义的，时刻动态变化的上界值，而不是像twu这样的定值，所以新提出的上界值会更紧凑，对检索空间的有效删减程度更大

Local utility

定义：

设项集 $\alpha$ 和项 $z \in E(\alpha)$ ，有 $lu(\alpha, z) = \sum_{T \in g(\alpha \cup \{z\})}[u(\alpha, T) + re(\alpha, T)]$ ，例如：设 $\alpha = \{a\}$ ，则有 $lu(\alpha, c) = (8+27+30), lu(\alpha, d) = 30, lu(\alpha, e) = 57$ （通过观察Table 1，你会发现 $lu(a, c) = TU(T_1) + TU(T_2) + TU(T_3)$ ，当然这只适用于排在第一位的项，比如对于项 {c} 就不是这样的了，有没有对 {c} 计算更简便的方法，利用前面已经算出来的值？）

定理：

设存在项集 $\alpha$ 和项 $z \in E(\alpha)$ ，且有 $z \in Z$ ，其中 $Z$ 是 $\alpha$ 的扩展集，对于 $lu(\alpha, z) \ge u(Z)$ 仍然成立，故当 $lu(\alpha, z) < minutil$ 时，在项集 $\alpha$ 的扩展项集中所有包含项 z 的项集都是低效用值，简而言之就是在遍历 $\alpha$ 的子树中，可以忽略掉项 z 和项集 α 为根节点的子树

证明：

设项集 Y = α ∪ {z}，项集Z 的效用值定义为 $u(Z) = \sum_{T_c \in g(Z)}u(Z, T_c) = \sum_{T_c \in g(Z)}[u(\alpha, T_c) + u(Z \setminus \alpha, T_c)]$ ，那么项集α 的局部效用值(local utility)就为 $lu(\alpha, z) = \sum_{T_c \in g(Y)}[u(\alpha, T_c) + re(\alpha, T_c)]$ （这个公式是不是很像 reu = iutils + rutils？？？）。原因在于 $g(Z) \subseteq g(Y)$ 且 $Z \setminus Y \subseteq E(\alpha)$ ，故必有 $u(Z \setminus \alpha, T_c) \le re(\alpha, T_c)、u(Z) \le lu(\alpha, z)$

Ps. 其实这部分证明只要对着上图中的枚举树（图Fig. 1.），把上述公式套进去就很容易看出来

Sub-tree utility

定义：

设有一个项集 $\alpha$ 且有一个项 $z$ 可以对 $\alpha$ 通过深度优先遍历进行扩展，其中 $z \in E(\alpha)$ ，那么有 $su(\alpha, z) = \sum_{T \in g(\alpha \cup \{z\})}[u(\alpha, T) + u(z, T) + \sum_{i \in T \land i \in E(\alpha \cup \{z\})}u(i, T)]$ ，例如：设 α = {a}，则有

su(\alpha, c) = \\ [u(a, T_1) + u(c, T_1) + u(d, T_1)] + \\ [u(a, T_2) + u(c, T_2) + u(e, T_2) + u(g, T_2)] + \\ [u(a, T_3) + u(c, T_3) + u(d, T_3) + u(e, T_3) + u(f, T_3)] \\ = 61

$su(\alpha, d) = 25, su(\alpha, e) = 34$

定理：

1.设存在项集 $\alpha$ 和项 $z \in E(\alpha)$ ，对于 $su(\alpha, z) \ge u(\alpha \cup \{z\})$ 仍然成立，并且有 $su(\alpha, z) \ge Z \land Z \subseteq \alpha \cup \{z\}$ ，故当 $su(\alpha, z) < minutil$ 时，在一元项集 $\alpha \cup \{z\}$ 和它的扩展集都是低效用值，简而言之可以剪去枚举树中的 $\alpha \cup \{z\}$ 子树

2.设存在项集 $\alpha、Y = \alpha \cup \{z\}$ 和项 $z$ ，则存在不等式 $twu(Y) \ge lu(\alpha, z) \ge reu(Y) = su(\alpha, z)$

证明：

1.设项集 Y = α ∪ {z}，那么

u(Y) = \sum_{T_c \in g(Y)}u(Y, T_c)，\\ su(\alpha, z) = \sum_{T_c \in g(Y)}[u(\alpha, T_c) + u(z, T_c) + \sum_{i \in T_c \land i \in E(\alpha \cup \{z\})}u(i, T_c)] \\ = \sum_{T_c \in g(Y)}u(Y, T_c) + \sum_{T_c \in g(Y)}\sum_{i \in T \land \in E(\alpha \cup \{z\})}u(i, T_c) \\ \ge \sum_{T_c \in g(Y)}u(Y, T_c) = u(Y)

2.设项集Z是项集Y的扩展，那么 $u(Z) = \sum_{T_c \in g(Z)}u(Y, T_c) + \sum_{T_c \in g(Z)}u(Z \setminus Y, T_c)$ ，因为有 $g(Z) \subseteq g(Y), Z \setminus Y \subseteq E(\alpha)$ ，故有 $su(\alpha, z) \ge u(Z)$

下图表示EFI-Ming算法的裁剪优势：

裁剪比较

FUC(Fast Utility Counting)

采用该剪枝技术的目的是通过一种数组结构(utility-bin)在线性时间和空间内计算出上界

定义：

效用箱(utility-bin)：设 I 是数据库中的一个项集，效用箱数组 U 的长度为length(I)，在数组 U 中每项表示为 U[z] $(z \in I)$ ，数组内存储的是效用值，效用箱数组通常是用来在O(n)时间复杂度内去高效计算上界值

使用：

利用utility-bin计算 $twu(X)$ ，有公式 $U[z] = U[z] + tu(T)$ ，其中 $z \in T$ ，在处理完最后一个事务时，对于 $\forall i \in I，twu(i) = U[i]$

下图是个示例：
利用utility-bin计算 $su(\alpha, T_j)$ ，对于项集 α，

有公式 $U[z] = U[z] + u(\alpha, T_j) + u(z, T_j) + \sum_{i \in T_j \land i \succ z \land i \in Secondary(\alpha)}u(i, T_j)$ ，其中 $z \in T_j \land E(\alpha)$ ，在处理完最后一个事务时，对于 $\forall i \in E(\alpha), U[i] = su(\alpha, i)$
利用utility-bin计算 $lu(\alpha, T_j)$ ，对于项集 α，有公式 $U[z] = U[z] + u(\alpha, T_j) + re(\alpha, T_j)$ ，其中 $z \in T_j \land E(\alpha)$ ，在处理完最后一个事务时，对于 $\forall i \in E(\alpha), U[i] = lu(\alpha, i)$

关键算法实现

EFIM算法实现

检索空间剪枝伪代码

个人总结

花了很长时间去研究这个算法，不得不说很多地方设计得很精彩，例如使用utility-bin来使得twu的计算控制在线性范畴内，local utility和sub-tree utility能得出更紧凑的上界。思路可以认为是先构造一元项的枚举树，这里是第一次缩减检索空间；然后围绕枚举树，开始对事务表进行操作；通过检查出的共同前缀，来进进一步对枚举树进行删减，这是第二次缩减检索空间；利用共同前缀，对项e进行一个个扩展(增长模式法)，留下符合的项集并输出，删除不符合条件的；重复进行以上过程最终枚举树无法延伸即可结束。在这个过程中还有各种参数的转换、留存，详情可见代码。

参考

EFIM算法演示教程-www.philippe-fournier-viger.com/spmf/EFIM.p…

EFIM: A Fast and Memory Efficient Algorithm for High-Utility Itemset Mining-philippe-fournier-viger.com/EFIM_JOURNA… KAIS 2016.pdf

EFIM原作的ppt-www.philippe-fournier-viger.com/EFIM_and_EF…

EFIM算法