携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第32天,点击查看活动详情
前言
Hello! 非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~ 自我介绍 ଘ(੭ˊᵕˋ)੭ 昵称:海轰 标签:程序猿|C++选手|学生 简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖...已保研。 学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语! 唯有努力💪
知其然 知其所以然!
本文仅记录自己感兴趣的内容
简介
原文链接:It's Who You Know: Graph Mining Using Recursive Structural Features
会议:Acm Sigkdd International Conference on Knowledge Discovery & Data Mining (CCF-A)
年度:2012
ABSTRACT
给出一个图,我们如何为节点提取好的特征呢?
例如
- 假设两个来自同一领域的大图,我们如何使用其中一个图中的信息来进行另一个图的分类(即,对图进行跨网络分类或迁移学习)?
- 此外,如果其中一个图是匿名的,我们如何使用其中一个图中的信息来取消另一个图的匿名化?
在所有这类图挖掘任务中,关键的一步是找到有效的节点特征
我们提出了一种递归特征提取算法ReFeX,该算法递归地结合局部特征(基于节点)和邻域特征(基于网络),并输出区域特征--捕捉“行为”信息
我们演示了如何在网络内和跨网络的分类和去匿名化任务中使用这些强大的区域功能,而不依赖同源性或类别标签的可用性
我们的工作贡献如下:
- (A)refex是可扩展的
- (B)它是有效的,可以在大图中捕获区域(“行为”)信息
我们报道了在超过1M条边的不同域的真实图上的实验,其中REFEX在网络分类和去匿名化等典型的图挖掘任务上优于竞争对手
1. INTRODUCTION
为给定图的结点提取有效特征是许多数据挖掘任务的关键步骤,如孤立点检测(即具有奇怪特征组合的结点),或在同一领域的不同图之间进行挖掘
例如,给定来自不同日期或不同企业网络的IP通信图,我们是否可以在某一天(比方说星期一)训练一个分类器,并在另一天(比方说星期四)使用相同的分类器来准确预测流量,而不在后者的图上加任何标签?
这里的关键步骤是从每个节点中提取有效的、可传递的特征,以最好地捕捉节点特征,以便对节点(或边)进行区分和分类
下面是另一个例子:给出一个匿名的社交网络(比如Twitter的Who-FollowsWho图)和一个非匿名化的通信图(比如Twitter的Who-提及-Who图),我们能找到有助于去匿名化(或重新识别)社交网络中的人的节点特征吗?
在这里,我们提出了一种新的解决方案,REFEX(递归特征提取)来解决这些图挖掘任务
REFEX递归地组合本地(基于节点)特征和邻域(基于egonet)特征,并输出捕捉“行为”信息的区域特征
local (node-based) features with neighborhood (egonet-based) features
这些区域特征表示给定节点所连接的节点的类型(例如,连接到富人),而不是那些节点的身份(例如,连接到比尔·盖茨)-即,在不同图表的挖掘中,您在类型级别上认识的人是重要的
在实证研究中,我们演示了如何在内部和跨网络分类和去匿名化任务中使用这些强大的区域特征--而不依赖同源性或类别标签的可用性
因此,该问题的定义如下:
给定一个图G,计算具有以下属性的节点特征矩阵:
- 结构:的构造不应该需要关于节点或链接的附加属性信息。
- 有效:良好的节点特征应
- (1)帮助我们预测节点属性,当这些属性可用时(如我们接下来讨论的IP流量的情况)
- (2)可跨图传输(例如,当图随时间变化时)
理想的功能应该有助于数据挖掘任务
典型的任务包括节点分类(在给我们一些标签之后),图中节点的去匿名化,以及转移学习
图1提供了(a)ReFeX背后的直觉和(b)其分类准确性的预览
- 在(a)中,我们展示了IP网络中不同日期的节点的网络,其中节点大小和边大小与流量成正比。主要的观点是邻居的特征是有价值的,并且帮助我们描述中心节点的特征(对于每一列,手动分别标记为‘web’、‘dnsserver’和‘p2p’)
- 图1(b)显示了REFEX(以蓝色条表示)与竞争对手的分类精度-越高越好;REFEX始终胜出
我们的工作贡献如下:
- 新颖的设计:我们提出了REFEX,这是一种可伸缩的算法,它计算区域特征,捕捉大图上的“行为”信息
- 有效性:REFEX的区域功能在几个图挖掘任务中表现良好,如迁移学习(跨网络分类)和大型图上的节点去匿名化
2. PROPOSED ALGORITHM
我们的算法Refex聚合了节点的现有特征值,并使用它们来生成新的递归特征
用于播种递归特征生成的初始特征集可以是来自网络的结构信息或来自外部源的属性
在这里,我们关注的是只有结构信息可用的任务
我们将结构属性分为三种类型:
- local
- eGonet
- recursive
局部特征和局部特征一起称为邻域特征,所有这三个特征一起称为区域特征
We separate structural attributes into three types: local,egonet, and recursive features. Local and egonet features together are called neighborhood features, and all three together are calledregional features.
2.1 Neighborhood Features
为递归REFEX过程提供种子的基本特征是本地local和eGonet特征
对于给定的节点,可以快速计算这些值
我们将这组局部特征和邻域特征称为邻域特征
- local特征本质上都是对节点度的度量。如果图是有向的,则它们包括入度和出度以及总度。对于加权图,它们包含每个局部特征的加权版本。
- 基于节点的EGO网络(也称为,EGonet)。EGet包括节点、其邻居以及这些节点上的导出子图中的任何边。Egonet特征包括egonet内的边数,以及进出egonet的边数。严格地说,后者不在egonet中,但不需要查看非egonet节点就可以计算它们。与局部特征一样,如果边是有向和/或加权的,我们计算这些特征的有向和/或加权版本
2.2 Recursive Features
我们广义地将递归特征定义为在节点的邻居之间对特征值进行计算的任何聚集
2.2.1 Generating Recursive Features
目前,Refex收集了两种类型的递归特征:均值和和
作为一个典型的例子,一个递归特征被定义为特征在节点的所有邻居之间的未加权度的平均值
可以聚合的特征不限于邻域特征,甚至不限于结构特征
可以在任何实值特征(包括其他递归特征)上计算聚集
我们计算所有特征值的平均值和和
此外,如果适用,我们会分别为传入和传出边计算这些参数
2.2.2 Pruning Recursive Features
显然,可能的递归特征的数量是无限的,并且随着每次递归迭代而呈指数增长
为了减少生成的特征的数量,可以采用各种修剪技术
一个简单的例子是寻找高度相关的特征对
在本例中,修剪策略是只要两个特征的相关性高于用户定义的阈值,就消除其中一个特征
出于计算原因,refex使用此方法的简化版本
具体地说,特征值通过垂直对数库被映射到小整数,然后REFEX寻找其值从不超过阈值的不一致的特征对
有关门槛的详细信息,请参阅下面的第2.3节。
首先,每个特征的值被转换成大小为p的垂直对数箱( logarithmic bins )(其中0<p<1)。其过程如下
- 对于特征,具有最低值的节点被重新分值0
- 如果存在关联,则可能需要包含多于个节点
- 接下来,为剩余节点中的p个部分分配值1,并为之后的其余节点中的p个分配值
- 重复此过程,直到所有值都被0到之间的整数值替换为止(参见图2)
我们根据观察到的许多图的性质呈现出幂定律分布来为所有特征选择对数库[1]
具体地说,对数库总是在具有较大特征值的节点集合中放置最大的识别力
这是合理的,因为我们希望能够对我们有很多观测的活动节点做出更好的预测,而不是我们只有几个观测到的节点
一旦一组特征被生成并入库,ReFeX就会寻找在任何顶点上不存在超过阈值s的不一致的特征对
我们称之为s-friend
为了消除冗余特征,我们构造了一个特征图,它的节点是特征,链接是s-Friend关系
此图的每个连接组件都替换为单个要素
在可能的情况下,我们保留“更简单”的特征,即使用较少的递归迭代生成的特征。
如果递归迭代导致没有保留的特征,Refex会暂停并报告每个先前迭代的保留的特征值
注意,由于在特征图中将它们连接的递归特征,在迭代k中保留的特征可能不被保留在迭代k+1中
在这种情况下,我们仍然记录和输出特征,因为它在某些迭代中被保留
2.3 Parameters
参数p的取值介于0和1之间,包括0和1
- 将p增加到太接近1会减少垃圾箱 ( bins ) 的数量,并增加有效的修剪攻击性,这可能会导致辨别力的损失
- 将p减小到接近0可以在剪枝过程中生成许多垃圾箱并保留许多特征,这会显著增加运行时间
在我们的实验中,我们发现p=0.5是一个明智的选择--每个bin包含剩余节点的下半部分
我们还发现,只要p的值不在0或1附近,结果对p的值就不敏感
对于s,refex在每次迭代中使用松弛
- 对于小图形(≤100K节点),REFEX使用s=0进行初始迭代(以生成邻域特征),这有效地保留了与对数仓值中的另一个特征不完全一致的任何特征
- 对于较大的图(>100K节点),如果计算资源不足以生成全集,则可以增加s的初始值,在随后的每次迭代中,REFEX将s加1,这确保了该过程在不超过次迭代后将停止,因为任何特征的最大值在该点
2.4 Computational Complexity
设为结点数,为边数,为最大度,为特征数,结点i的度
REFEX的计算复杂度可分为两步:
- (1)邻域特征的计算
- (2)后续每次迭代的计算
对于真实世界的图,邻域特征的计算预计需要
具体内容见引理1
在随后的每次迭代中,refex花费时间,其中
空间需求为
3. FEATURE EFFECTIVENESS ON NETWORK CLASSIFICATION
我们描述了使用REFEX的特征进行网络内和跨网络分类的实验
3.1 Data
IP-A和IP-B是在不同的企业网络上相隔大约一年收集的真实网络跟踪数据集。节点是IP地址,链路是IP之间的通信。IP-A跟踪从第1天的午夜开始,一直持续到第5天的下午12点。IP-B跟踪从第1天的午夜开始,一直持续到第6天的≈5 PM
对于IP-A数据集的第1-4天(IP-A1到IP-A4),我们提取了12 PM-1 PM期间的流量我们不包括第5天,因为跟踪在下午12点结束对于IP-B,我们仅在第三天从中午12点到下午1点提取流。然后,我们使用基于负载签名的分类工具来标记所有流。一旦网络流被标记,我们通过从主机的流中选择最频繁的类别标签来将标签传输到主机。有效载荷分类器可以区分超过15个业务类别(例如,Web、DNS、SMTP、P2P)。然而,由于我们发现三类(即Web、DNS和P2P)构成了超过90%的标记主机的主要流量类型,因此我们去掉了所有其他标签,并将重点放在三类分类问题上。表1总结了我们提取的数据。
3.2 Classifiers
为了测试Refex的特征的预测能力,我们使用了Gallagher等人描述的对数森林模型。[11]。Log森林是一个袋装模型,由一组Logistic回归(LR)分类器组成,其中每个分类器被赋予f个总特征的log(F)+1的子集。在我们的实验中,我们使用了500个LR分类器的对数森林。如加拉格尔等人。[11],我们发现LogForest的整体性能优于标准Logistic回归。此外,作为基准,我们包括一个标准的基于同质性的关系邻居分类器:wvRN(加权投票关系邻居的缩写)[23]。WvRN分类器已被证明在一系列任务中具有出色的性能。我们比较的量词有
- WnRN+RL-关系邻居模型,使用wvRN和松弛标注进行集合分类
- 邻域-仅使用邻域要素的日志森林模型
- 区域-使用区域特征(即邻域+递归)的对数森林模型
3.3 Feature Effectiveness on Within-Network Classification
3.3.1 Methodology
每个数据集包含一组核心节点,我们对这些核心节点有基本事实(即,我们知道真实的类别标签)。在所有情况下,分类器在训练和测试期间都可以访问整个数据图。3然而,并不是所有的核心节点都被标记。我们将标记核心节点的比例从10%到90%不等。分类器在所有已标记的核心节点上进行训练,并在所有未标记的核心节点上进行评估
我们的方法如下。对于每个标记的核心节点比例,我们运行10次试验并报告平均性能。对于每个测试和比例标记,我们选择一个包含(1.0-比例标记的)%的核心实例的类分层随机样本作为测试集,其余的核心实例成为训练集。请注意,标记为小于0.9(或大于10次试验)的比例意味着单个实例必然会出现在多个测试集中。由于这种重叠,测试集不能成为独立的。然而,我们仔细选择测试集,以确保在我们的实验过程中,我们数据集中的每个实例都出现在相同数量的测试集中。这可确保每个实例在总体评估中具有相同的权重,而不考虑所标记的比例。标签保留在训练实例上,并从测试实例中移除。我们对每个分类器使用相同的训练/测试拆分。我们的实验框架基于开源的Weka系统[28]。我们实现了自己的网络数据表示和实验代码,它处理将数据拆分成训练和测试集、标记和取消标记数据以及将网络片段转换为与Weka兼容的形式等任务。我们依靠Weka实现逻辑回归,并在个人训练/测试试验中衡量分类器的性能。
3.3.2 Results
图3展示了wnRN+RL、邻域和区域分类器在IP-A3数据集的网络内分类任务中的性能。我们在IPA的每个数据集上重复了这项任务,结果基本相同。网络内分类设置是wvRN等基于同源关系的模型的甜蜜点。因此,毫不奇怪,wvRN+RL在这项任务中表现良好,网络中90%的节点都被标记了。然而,随着标签变得更加稀疏,wvRN+RL的性能迅速下降。区域分类器和邻域分类器对标记数据的可用性不那么敏感,因为它们不依赖标记的邻居来进行准确的分类。因此,当标签数据稀疏时,区域分类器的性能优于wvRN+RL。邻域和区域在性能上的巨大差异表明,递归特征生成过程导致更具表现力的特征,这些特征能够表示仅靠邻域特征无法捕获的重要概念。
3.4 Feature Effectiveness on Across-Network Transfer Learning
3.4.1 Methodology
对于每个实验,训练图都有所有可用的已知标签。测试图完全没有标签。在测试图中的所有已知基本事实标签上对每个分类器进行评估。我们对所有数据集使用相同的特征集。这组功能来自对IP-A1数据集运行REFEX。表2总结了跨网络实验。
3.4.2 Results
图4展示了Neighborhood和Region在一系列跨网络迁移学习任务上的表现。在这里,我们在一个网络上进行训练,其中所有已知的标签都可用,并在完全没有标签的单独网络上进行测试。考虑到数据集之间类别分布的差异(有时是极端的),我们强调了这些任务的难度(参见表1)。默认分类器的性能是每个任务难度的一个很好的指示器,因为该模型仅基于训练集中最频繁的类别进行预测。我们还注意到,wnRN+RL不适用于这些任务,因为它依赖于一些已知类标签的可用性来播种推理过程。
与网络内设置一样,区域分类器在跨网络任务上的整体表现最好,在IP-A的单独几天实现了82%-91%的准确率训练和测试,在IP-A和IP-B的所有天数实现了77%的准确率训练和测试。考虑到IP-A4和其他数据集在类别分布上的极端差异,应用于IP-A4的区域数据的性能尤其令人印象深刻(参见表1)。我们注意到,地区性的IP-A4培训不太成功。事实上,关于IP-A4的培训和关于IP-B的测试是区域表现逊于邻居的一个案例。但是,性能差异很小(<5%)。最后,并不令人惊讶的是,我们看到了针对多个不同数据集而不是单个数据集进行培训的好处。具体地说,我们在所有IP-A数据集上实现了77%的训练,并在IP-B上进行了测试,而我们看到IP-A在个别天的训练有很大的差异(55%-85%)。
4. FEATURE EFFECTIVENESS ON IDENTITY RESOLUTION
为了演示区域特征捕获节点的有意义和信息量的行为,我们提供了一组身份解析任务。在每个任务中,我们计算节点集重叠的网络对上的一组区域特征。我们的假设是,节点的特征值在图中将是相似的。我们提出了一个实验框架,允许我们对此进行经验测试。在我们的实验中,我们将演示当外部非匿名数据可用时,如何使用该方法对社交网络数据集执行“去匿名化”。
4.1 Problem Statement
对于节点集重叠,但边集可以是不同的(甚至代表完全不同类型的观测)的两个图,我们是否可以仅使用网络结构来将一个网络中的节点映射到另一个网络中的节点?更现实地说,我们是否可以减少与一个图中的每个节点相关联的熵,相对于它在第二个图中的节点之间可能的同一性?对于给定的方法,我们将通过计算该方法在找到第二个图中的正确节点之前猜测了多少个“错误”节点来衡量该任务的成功与否。
4.2 Methodology
我们得到了两个图,GTarget和Greference,以及在这两个图中都存在的vertex vtest。为了测试给定的身份解析策略,我们允许该策略猜测引用顶点<vguess1,vguess2,.。。,vguess k>,直到它正确地猜测到vtest。与该策略相关联的分数是k,即查找节点所需的猜测次数。基线方法是随机猜测;对于此策略,我们假设预期分数|Vreference|/2。
我们在实验中测试的策略使用结构特征来计算猜测。我们给出了(1)局部特征、(2)邻域特征和(3)区域特征的结果。这些特征是使用GTarget上的Refex计算的。然后在Greference上计算相同的特征。对于给定的策略,在特征空间中按照距离V目标的欧几里得距离递增的顺序生成猜测。我们的假设是地区得分会比本地或邻里得分低(即更好
为了比较策略的整体性能,我们计算了两个图中存在的所有顶点的集合重叠的分数。当不能在计算上分析每个节点时,我们选择一组顶点sTestSoverage,并报告⊂中节点的所有分数。在这些实验中,我们选择Stestby,取V目标中具有最高阶数的1000个顶点,并仅保留也在重叠中的那些顶点。
有许多方法可以比较给定测试集上的性能。例如,所有目标实例的平均分数是衡量成功程度的指标,平均分数越低表示性能越好。我们还可以计算得分低于给定阈值的目标实例的分数;在这里,分数越大越好。例如,我们可以报告得分小于|Vref erence|的1%的目标折点的比例。4
4.3 Data
表3概述了这组实验中使用的数据集。第一个是2008年的两个推特网络,包括一个关注谁的网络和一个提到谁的网络。第二个是短信通信网络。第三个是为期28天的雅虎即时通讯活动的集合。第四个是在几个不同时间观察到的两个独立企业网络上的IP流量。我们在第3.1节中详细介绍了IP网络。
雅虎!IM网络公司。这里的每个图是从28天的观察中获取的IM事件的集合。5每个节点是一个IM用户,每个链接是给定日期的一个通信事件。在某些情况下,给定的一对用户在给定的一天内会报告多个事件;当发生这种情况时,会根据报告的事件数量为链接赋予权重。
我们使用第一天的IMS作为GTarget,并计算其他日期(2-28日)的分数作为Greference。这里的任务是从第一天开始接收IM用户,并在以后几天找到他。图5显示,对于allGreference图,节点集和边集与GTarget的相似性较低。然而,在大多数情况下,与测试集sTest中的1000个节点有很大的重叠。
企业网络追踪。我们将在第3.1节详细描述这些IP网络。目标图来自IP-A1。共有四个参考图:IP-A2、IP-A3、IP-A4和IP-B。任务是识别从一天到第二天或从一个IP网络到下一天的外部IP地址。此任务的一个潜在应用是对隐藏IP地址的网络跟踪进行去匿名化;人们可以观察到非匿名化的企业跟踪并使用结构信息来猜测匿名化IP的身份。
推特上的关系。这个数据集由2008.6年推特上的两个图表组成,一个是由几个种子用户(都是拥有经过验证的账户的名人)和抓取几次“关注”链接生成的社交“谁关注谁”网络。另一条是从一年中观察到的实际推文中提取的。观察到推文的用户与社交网络中的用户相同。
为了从tweet构建一个图,我们生成“提及优先”的边。也就是说,如果用户1的推文包含用户名(例如@user2),我们将在网络中添加用户1和用户2之间的链接,但前提是用户2是推文中提到的第一个用户。我们不包括自我提及。
在本实验中,我们使用社交网络作为GTarget,提及网络作为Greference。这项任务的成功表明,只要可以从文本中解析用户名,就可以通过使用公开可用的文本数据来消除社交网络的匿名性。这对已发布的“匿名”社交网络中用户的隐私具有重要影响。
短信。短信数据集由亚洲一家移动电话运营商的短信构建而成。每个节点对应一个手机客户端。参考图和目标图对在两个不同日期提取的那些节点之间的短消息数量进行编码。我们还消除了那些活跃度较低的用户对,他们之间只有一次消息交换。
4.4 Feature Effectiveness Results
我们给出了四个数据集的结果。前三篇文章展示了地域性特征对身份解析的有效性,第四篇文章是关于测试集选择的实践者的说明。
雅虎!IM网络公司。图6显示了27个参考图中每一个的平均分数,作为基线策略中预期分数的百分比(回想一下,基线策略平均得分|Vreference|2)。所有基于特征的策略都优于基线策略,但当图表明显不同时,所有策略的性能在周末都会受到影响。总体而言,Neighborhood的预期分数比Local好(低)得多,而Region比Neighborhood略好一些。
图7提供了性能的另一个视图。这里的每个数据点都显示了得分超过最大可能分数1%的测试节点的分数|Vref erence|。分数越高,性能越好,因为分数分布更接近最低分数1。同样,在大多数情况下,区域策略的表现优于其他策略。这种改善在周末会有所下降,在一种情况下(第27天),地区的表现并不比当地的好。
周末的糟糕表现并不出人意料,这让我们坚信结构特征正在捕捉行为。回想一下图5,周末的活动用户集和观察到的通信集明显不同。直观地说,这是一个明显的事实,即许多用户在周末的IM通信方面的行为总体上和在工作日都不同。在这种情况下,区域特征特别容易出错,因为这些行为变化在递归特征生成过程中会被放大。
企业网络追踪。区域在随着时间的推移跟踪外部IP地址方面非常有效,如图8所示。它在所有测试中都主导着Local和Neighborhood的性能,即使在观察到GTarget中的通信一年后,也有超过45%的sTest得分位于可能分数的前1%。请注意,一年后,由于重叠减少,Stestis明显变小;报告的结果是|sTest|的一小部分。尽管跟踪是从不同的网络收集的,但公共外部节点(如google.com)将包括在这两个网络中。
在这项任务中,平均分数不一致,在某些情况下,当地的表现优于地区。对分数分布的分析表明,在大多数测试实例中,Region的表现优于Local,但有一小部分测试节点的Region表现非常差(接近基线)。
推特上的关系。这个实验是“最难的”,因为GTarget和Greference是由不同的过程产生的。GTarget是一个用户关注其他用户的社交网络,而Greference是通过用户在推文中提到彼此而产生的。令人惊讶的是,我们的方法仍然能够很好地解析这里的一些用户。
在这个实验中,我们将每种策略应用于几个不同的测试集,而不是只按程度选择前1000个节点。特别是,我们在每个垂直对数箱上分别进行了测试(参见第2.2.2节)。对于超过1000个用户的垃圾桶,我们统一随机抽样1000个用户。
图9显示了每种策略的预期分数。十个最高度的垃圾桶加在一起,大致对应于按度排列的前1000个节点。地区性特征在这一范围内的表现优于其他策略,尽管它们的表现在较低程度的垃圾桶中有所下降。
这三种策略在这些图表上的表现都不如在其他数据集上好,但它们仍然能够显著降低最活跃用户的熵。例如,最高级别的用户是BarackObama,而Region在该实例上的得分为5(四个错误猜测分别是AddToAny、Mr Tweet、tferriss和the_Real_Shaq)。巴拉克·奥巴马在当地和邻里各得了24分。
对于程度最低的节点,所有方法的性能都比基线差。这种减少是意料之中的;较不活跃的节点更难识别,因为(1)它们可利用的观察行为较少,(2)有更多与它们非常相似的节点。
短信。此数据集用于指出Region的表现不是最好的情况,但也是实践者的说明,当在实验设置之外执行身份解析时,通常会允许改进结果。
图10显示,得分高于|Vreference|1%的节点的性能取决于Stest的元素。当STEST由排名前1000的节点组成时,每种方法在60%−65%的测试节点上的得分都高于1%,区域测试的性能最差。然而,如果允许每种策略通过按特征向量大小选择前1000个节点(在该策略的特征空间中)来“手工挑选”测试集,则性能将全面提高。地区性的进步最大,在这种情况下是表现最好的。
通过允许每种策略选择其测试集,我们利用了这样一个事实,即高度节点可能没有具有其他较大特征值的低度节点那么独特。然而,作为比较策略的实验,这种方法并不“公平”,因为每个策略的测试实例集是不同的。
我们测试了其他数据集,以确定在选择测试节点时,特征幅值是否总是好于度数。虽然这在一般情况下是正确的,但在使用特征幅度时,也存在性能下降的情况。这通常是由于1000个拟议测试节点和Vref erence之间重叠的大小不同造成的。
就运行时间而言,我们最大的图(Twitter提到的有840K节点和1.4M条边的图)在一个商用处理器上运行了大约5个小时。节点少于100K的图在一小时或更短的时间内运行。
5. RELATED WORK
图形数据中的特征工程。实图的全局结构特征和局部结构特征已经得到了广泛的研究。例如,在全球范围内,已经观察到图形直径很小[2],并且随着时间的推移而缩小[20]。也有报道称,时变图中的边数与节点数呈超线性增长,遵循幂定律关系[20]。此外,图的主(最大)特征值被证明是作为图的脆弱性度量的信息量[27]。其他地方和社区级别的观察表明,许多图中的度分布遵循幂定律[5,7,17,24],并且图呈现模块化结构,节点形成组,组内形成组[9,14]。这项工作让我们选择了一组邻域特征,然后我们在这些特征的基础上构建递归特征。
面向数据挖掘的特征提取。也有相关的工作,利用图中的特征提取来执行几个数据挖掘任务。一项研究将链接预测作为有监督的学习问题[21]。它们提取了节点对的拓扑特征,并表明这些特征提高了预测性能,并且有监督方法的性能优于无监督方法。最近的另一项研究[16]开发了一个基于图、子图和节点级特征的多层框架来检测时变图中的异常。这些算法依赖于提取图形级别(全局)特征,并随着时间的推移跟踪这些指标。被识别为感兴趣或可疑的时间点被传递到更精细的级别,在那里更复杂的工具检查节点和社区特征以发现感兴趣的区域并标记异常节点。另一项研究提取网络特征和模式,以检测加权图中的异常节点[1]。也有关于使用局部和全局结构特征来提高网络分类器的性能的工作[10]。在我们的工作中,我们介绍了递归特征提取的方法。结果表明,与非递归特征相比,递归特征在迁移学习和身份解析等数据挖掘任务中具有更好的性能。
另一项相关工作使用频繁子图作为图[18,8]的分类和异常检测[26,22]的结构特征。然而,这些方法假定给定图中的节点有标签。另一方面,我们的特征提取过程利用了图的结构,而不需要任何关于标签可用性的假设。
转移学习。迁移学习(即领域适应)是近年来一个非常活跃的研究领域。代表性的工作包括多标签文本分类[30,13]、跨域情感预测[4、6、15]、入侵检测[12]、动词论元分类[19]、跨语言分类[25]和跨域关系提取[29]。在所有这些场景中,特征都作为其算法的输入(例如文档的词频),目标是利用给定的特征来提高目标领域的性能。在本文中,我们旨在回答一个正交问题:在将知识从源域转移到目标域的过程中,什么样的特征是有效的?我们的案例研究表明,所提出的递归特征对于跨网络分类和身份解析确实是有效的,特别是当目标域中存在很少或没有标签时,或者类标签之间的同质性不成立时。我们期望所提出的递归特征对迁移学习任务具有广泛的适用性。
6. CONCLUSIONS
我们描述了一种新的算法REFEX,该算法根据节点的邻域连通性从节点中提取区域特征
这些区域特征根据给定节点所连接的节点类型来捕获行为,而不是根据这些节点的身份
我们证明了REFEX在各种图挖掘任务中的可伸缩性和有效性,包括网络内和跨网络的分类和身份解析任务
未来的工作包括将ReFeX生成的区域特征用于其他挖掘任务,如聚类、异常检测和网络比较。
读后总结
2022/08/14 第一次阅读
refex用于提取图中节点的特征
步骤:
- 先计算此节点的邻域特征(local + egonet 特征)
- 然后再递归 聚合其邻域的特征(均值 or 和)
- 如果原来一个节点特征为[1,2,1,1] 邻域特征为[1,2,3,1]
- 此时会先判定邻域特征中:若两个特征相似,则只需要保留一个即可,比如开始为1,末尾为1,这两个特征相似度很高,舍弃一个,得到[1,2,3]
- 然后再将其添加至原特征后面,得到[1,2,1,1,1,2,3]
- 然后再使用logarithmic bins 分箱,舍弃一些特征(减少维度)
- 最终得到[1,2,1,3](仅为举例)
所以最后得到的节点特征的维度受迭代次数和bin值的影响
- 迭代次数越多 ,维度越高
- bin值越大,维度越高
参考代码:github.com/benedekroze… 实验得到
本次阅读只理解其方法思想,未对实验进行仔细研读
结语
文章仅作为个人学习笔记记录,记录从0到1的一个过程
希望对您有一点点帮助,如有错误欢迎小伙伴指正