写在前面:继UP-Span算法之后,研究一下加上top-k之后挖掘效率是否会效果更强,通常而言,top-k领域挖掘算法对密集型数据集效率会有显著的提升,而且针对UP-Span算法的不足,top-k的策略在一定程度上可以解决。
-
事件(event)一个事件被定义为 pair(e,t),其中 e 是事件类型,t 是属于 N+ 的事件发生时间点
-
同时事件集(simultaneous event set)当一组事件在同一个时间点 t 发生时,这个事件集叫做同时事件集
-
复杂事件序列(complex event sequence)复杂事件序列 CES=<(SE1,t1),(SE2,t2),…,(SEn,tn)> 是一个有序同时事件集序列
-
包含同时事件的情节(episode containing simultaneous event sets)一个情节 α=<(SE1),(SE2),…,(SEn)> 是同时事件的非空完全有序集合
-
发生(occurrence)给定一个情节 ,当1)情节 α=<(SE1),(SE2),…,(SEm)> 发生在时间段 [ts,te];2)情节 α 的第一个同时事件集 SE1 发生在 Ts 时间点,最后一个同时事件集 SEm 发生在 te 时间点,那么称时间间隔 [ts,te] 为情节 α 的出现。其中,情节 α 的所有发生组成集合命名为 occSet(α) 。例如:情节 occ<(E),(D)>={[1,3],[3,3],[1,5],[3,5]}
-
最小发生(minimal occurrence)给定情节 α 的两个时间间隔 [ts,te], [ts′,te′],[ts′,te′] 是 [ts,te] 的子集:当1)[ts,te] 是情节 α 的出现;2)时间间隔 [ts′,te′] 不存在子集。最小发生记为 minOcc(α)。其中,情节 α 的所有最小发生组成集合 minOccSet(α)。例如:minOccSet(<(E),(D)>)={[1,3],[3,3],[3,5]}
-
内部效用和外部效用(internal and external utility)在情节效用挖掘中,每一个事件 ei 都关联着一个正外部效用 p(ei) 和正内部效用 q(ei,tj)
-
事件在某个时间点的效用值(utility of an event at a time point)在某个时间点 ti∈N+ 下某个事件 Ei 的效用定义为 u(ei,ti)=p(ei)×q(ei,ti)
-
同时事件集在某个时间点的效用值(utility of a simultaneous event set at a time point)在某个时间点 ti∈N+ 下某个同时事件集 SE=(e1,e2,…,en) 的效用定义为 u(SE,Ti)=∑j=1nu(ej,ti)。例如:u(<(GF)>,t6)=(2×1)+(3×1)
-
情节关于最小发生的效用值(utility value of an episode w.r.t its minimal occurrence)设 minOcc(α)=[ts,te] 是情节 α=<(SE1,SE2,…,SEn)> 的最小发生,其中每一个同时事件集 SEi∈α 都与某一个时间点 Ti∈N+ 相关联。那么情节关于最小发生的效用值定义为 u(α,minOcc(α))=∑i=1nu(SEi,ti),其中 ts≤ti≤te
-
复杂事件序列情节的总效用值(utility of an episode in a complex event sequence)设 minOccSet(α)=[minOcc1(α),minOcc2(α),…,minOccn(α)] 是关于情节 α 的最小发生集。而基于复杂事件序列 CES 的情节效用定义为 uv(α,CES)=∑i=1nu(α,minOcci(α)),并且有 u(α)=uv(α)/u(CES)
-
高效用情节(high utility episode(HUE))当一个情节的效用值大在给定的 MTD 中大于或等于阈值时,该情节称为高效用情节
-
最长时间段(maximum time duration)设 MTD 是用户预先设定的最长持续时间,mo(α)=[ts,te] 是情节 α 的最小发生间隔。当 (te−ts+1)≤MTD,称 mo(α) 受 MTD 的约束(或者是满足)
-
同时串行连接(simultaneous and serial concatenations)设 α=<(SE1),(SE2),…,(SEx)>, β=<(SE1′),(SE2′),…,(SEy′)>,α 和 β 的同时连结定义为 simul-concat(α,β)=<(SE1),(SE2), …,(SEx∪SE1′),(SE2′),(SEy′)>,α 和 β 的串行连接定义为 serial-concat(α,β)=<(SE1),(SE2), …,(SEx),(SE1′),(SE2′),…,(SEy′)>(Ps. 这个类似于扩展项集)
例如:设 α=<(B),[4,4]>,β=<(D),[5,5]>,那么由串行连接新生成的情节 γ=<(B,D),[4,5]>;若此时令 α=<(A),[5,5]>,则 γ=<(B,DA),[4,5]>
同样地,该概念也具有向下封闭(EWDC)的特性,即:设 α 和 β 都是情节,且 γ=simul-concat(α,β) 或 serial-concat(α,β),当 EWU(α)<minUtil 时,γ 是低效用情节
-
关于最小发生时间的情节权重效用(episode-weighted utilization of an episode w.r.t a minimal occurrence)设 mo(α)=[ts,te] 是情节 α=<(SE1),(SE2),…,(SEn)> 最小发生时间段,其中 mo(α) 受 MTD 的约束。那么在时间段 [ts,te] 下情节 α 的情节权重效用 EWU(α,mo(α))= ∑i=1nu(SEi,ti)+∑i=e(s+MTD−1)u(tSEi,ti),其中 tSEi 是在 CES 中同时事件集的时间点 ti
-
情节效用权重(episode-weighted utilization of an episode)设 minOccSet(α)=[tI1,tI2,…,tIn] ,且tIi∈minOccSet(α) 满足 MTD 约束。那么基于复杂事件序列 CES 的情节 α 效用权重 EWU(α)=∑i=1nEWU(α,tIi)/u(CES)
-
高权重效用情节(high weighted utilization episode)当一个情节 α 的 EWU(α)≥minUtil 时,该情节称为高权重效用情节