渐变模糊模式挖掘算法

75 阅读2分钟

写在前面:渐变模式挖掘(gradual pattern mining)用于发掘“越···,越···”这类规则中各个组成部分之间存在的关联,如“速度越快、用时越短”、“熬夜越少,睡眠越好”等。这类人文语言所特有的模糊特性导致计算机是无法具体量化并很好地处理,所以渐进模式挖掘也是属于模糊挖掘的另一种表现形式。然后,通常情况下,“渐变”是一个时间概念,即逐渐变化。当前的算法并没有充分考虑到时效性这一点,故本算法拟解决具备时效特征的渐进模糊挖掘任务 ———— By Suarne

Mining Fuzzy-Temporal Gradual Patterns

定义

  • 渐变项(gradual item):由一对元素组成 (i,v)(i, v),其中 ii 指的是项,vv 指的是变量,在渐变模式挖掘中,为了简化问题,变量取值范围仅为增强/减弱,即 v{,}v \in \{\uparrow, \downarrow\}

  • 渐变模式(gradual pattern):由多个(2\ge 2)渐变项组成的集合,定义为 GPGP = {(i1,v1),,(in,vn)}\{(i_1, v_1), \ldots, (i_n, v_n)\}

  • 支持度(support):使用相对支持度,即 supp(GP)=maxLl(L)Lsupp(GP) = \frac{max_{L \in l}(\mid L \mid)}{\mid L \mid},其中 LL 是尽可能符合 GPGP 的记录的集合,RR 是数据库中所有记录的集合

  • 频繁渐变模式(frequent gradual pattern):当一个渐变模式其支持度不低于给定的最低支持度阈值,那么该渐变模式被认为是频繁的(或令人感兴趣的),即 supp(GP)σsupp(GP) \ge \sigma

  • 时间间隔(time lag):表示为一个渐变项会持续影响另一个渐变项多长时间,即 αβt\alpha \beta t,其中 α{+,}\alpha \in \{+,-\}(“++”表示影响持续是往后算,“-”则是往前算),β{=,}\beta \in \{=, \cong\} (表示确切或模糊程度),t=MedicalMmt=Medical_{M \in m} (表示具体的时间长度,其中 m=(cir1cir1+k),,(cirncirn+k)m = (c_i r_1 - c_i r_{1+k}), \ldots, (c_i r_n - c_i r_{n+k})cc 指代时间且 tt 指代元组)

  • 时序渐变项(temporal gradual item):时序渐变项用 (i,v)αβt(i, v)_{\alpha \beta t} 表示,注意,此时 β{=}\beta \in \{=\}

  • 时序渐变模式(temporal gradual pattern):时序渐变模式用 TGP={(i0,v0),(i1,v1)αβt1,,(in,vn)αβtn}TGP = \{(i_0, v_0), (i_1, v_1)_{\alpha \beta t_1}, \ldots, (i_n, v_n)_{\alpha \beta t_n}\},注意,此时 β{=}\beta \in \{=\}

  • 模糊时序渐变项(fuzzy-temporal gradual item):模糊时序渐变项用 (i,v)αβt(i, v)_{\alpha \beta t} 表示,注意,此时 β{}\beta \in \{\cong\}

  • 模糊时序渐变模式(fuzzy-temporal gradual pattern):模糊时序渐变模式用 TGPf={(i0,v0),(i1,v1)αβt1,,(in,vn)αβtn}TGP_{f} = \{(i_0, v_0), (i_1, v_1)_{\alpha \beta t_1}, \ldots, (i_n, v_n)_{\alpha \beta t_n}\},注意,此时 β{}\beta \in \{\cong\}

    由于该算法处理的对象不同于以往的交易型数据集,所以需要进行额外的数据预处理步骤

  • 代表性时序渐变模式(representativity of temporal gradual pattern) rep(TGP)=NRrep(TGP) = \frac{\mid N \mid}{\mid R \mid},其中 NN 表示转换后的数据集大小,RR 表示原数据集大小;若给定最低代表阈值 δ\delta,当 rep(TGP)δrep(TGP) \ge \delta 时,该 TGPTGP 时相关的;该定义对于 TGPfTGP_f 也是同样成立

伪代码

Data Transformation Algorithm

主要用于转换原数据集变成 Algorithm 2 算法可用的输入数据集

Algorithm 1

The T-GRAANK Algorithm

该部分是修改自 GRAANK 算法,在原有的基础上增加了时效性计算

Algorithm 2

Time-Lag Estimation Algorithm

该方法通过不断调整寻找最合适的隶属函数和区间值

Algorithm 3

参考

Mining Fuzzy-Temporal Gradual Patterns