【论文阅读|深读】LINE: Large-scale Information Network Embedding【1】

846 阅读6分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第24天,点击查看活动详情

前言

Hello!

非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~  

自我介绍 ଘ(੭ˊᵕˋ)੭

昵称:海轰

标签:程序猿|C++选手|学生

简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖...已保研。

学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!  

唯有努力💪  

知其然 知其所以然!

本文只记录感兴趣的部分

ABSTRACT

本文研究了将非常大的信息网络嵌入到低维向量空间的问题(大规模网络嵌入)

我们提出了一种新的网络嵌入方法,称为“LINE”,它适用于任意类型的信息网络:无向、有向和/或加权

  • 该方法优化了一个精心设计的目标函数,同时保留了局部和全局网络结构
  • 针对经典随机梯度下降算法的局限性,提出了一种边缘采样算法,提高了推理的有效性和效率。

实验证明LINE在语言网络、社交网络、引文网络等多种现实信息网络中具有有效性

该算法非常高效,能够在一台典型的单机机器上在几个小时内学习包含数百万个顶点和数十亿条边的网络的嵌入 (适于大型网络高效进行网络嵌入)

1. INTRODUCTION

LINE在保留局部和全局网络结构的前提下对目标进行优化

自然地,局部结构由网络中观察到的连接表示,反映了顶点之间的一阶邻近

在真实的网络中,许多(如果不是大多数的话)合法的连接实际上是没有被观察到的。所以在真实世界数据中观测到的一阶接近度不足以保留全局网络结构

作为补充,我们探索顶点之间的二阶邻近性,这不是通过观察节点之间的连接强度,而是通过顶点的共享邻域结构来确定的


二阶邻近的一般概念可以解释为共享邻居的节点可能是相似的

这种直觉可以在社会学和语言学的理论中找到。

以下图为例

  • 由于顶点6和7之间的边的权值较大,即6和7具有较高的一阶接近度,因此在嵌入空间中应该紧密地表示它们。
  • 顶点5和顶点6之间虽然没有联系,但它们有很多共同的邻居,即它们有很高的二阶接近度,因此它们之间也应该紧密地表示

在这里插入图片描述

我们期望 二阶邻近性的考虑 有效地补充了一阶邻近性的稀疏性,并更好地保留了网络的全局结构。


即使找到了一个合理的目标优化函数,针对一个非常大的网络进行优化也是一项挑战

随机梯度下降法(SGD)是近年来备受关注的一种优化方法。然而,直接部署随机梯度下降对于真实世界的信息网络是有问题的

  • 因为在许多网络中,边缘都是加权的
  • 而且权重通常呈现出很高的方差
  • 比如考虑一个单词共现网络,其中单词对的权重(共现)从1到数十万不等。
  • 这些边的权值将被乘到梯度中,导致梯度爆发,从而影响性能。

为了解决这个问题,我们提出了一种新的边缘采样方法,它提高了推断的有效性和效率

  • 我们以与其权重成正比的概率对边进行采样,然后将采样的边作为二值边进行模型更新。
  • 在这个采样过程中,目标函数保持不变,边缘的权重不再影响梯度

本文贡献

  • 我们提出了一种新的网络嵌入模型,称为“LINE”,它适用于任意类型的信息网络,并容易扩展到数百万个节点。它有一个精心设计的目标函数,同时保持一阶和二阶邻近性。
  • 我们提出了一种边缘采样算法来优化目标。该算法解决了经典随机梯度算法的局限性,提高了推理的有效性和效率。
  • 我们在真实世界的信息网络上进行广泛的实验。实验结果证明了LINE模型的有效性和高效性。

2. RELATED WORK

一般的图嵌入或降维的经典方法,如MDS[4]、IsoMap[20]、LLE[18]和Laplacian Eigenmap[2]

  • 通常首先使用数据点的特征向量构造亲和性图,例如数据的k近邻图
  • 然后将亲和性图[22]嵌入到低维空间中

然而,这些算法通常依赖于求解亲和矩阵的主导特征向量,其复杂度至少是节点数量的二次方,这使得它们在处理大规模网络时效率低下


图分解[1]技术

  • 通过矩阵分解找到大图的低维嵌入
  • 并使用随机梯度下降法进行优化

然而,矩阵分解的目标并不是针对网络设计的,因此不一定能保持网络的全局结构

直观上,图分解要求一阶接近度较高的节点被紧密表示。

图分解方法只适用于无向图


DeepWalk[16],它为社交网络嵌入部署了一个截断的随机游走。

尽管在经验上是有效的,但DeepWalk并没有提供一个明确的目标,说明哪些网络属性被保留。

  • 直观上,DeepWalk期望具有较高二阶接近度的节点产生类似的低维表示
  • 而LINE同时保持一阶和二阶接近度

区别:

  • DeepWalk使用随机漫步来扩展顶点的邻域,这类似于深度优先搜索,而LINE采用宽度优先搜索策略,这是一种比较合理的二阶逼近方法。
  • DeepWalk只适用于未加权的网络,而LINE适用于既有加权边又有非加权边的网络。

结语

文章仅作为个人学习笔记记录,记录从0到1的一个过程

希望对您有一点点帮助,如有错误欢迎小伙伴指正

在这里插入图片描述