【论文阅读|深读】LINE: Large-scale Information Network Embedding【2】

1,097 阅读3分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第25天,点击查看活动详情

前言

Hello!

非常感谢您阅读海轰的文章,倘若文中有错误的地方,欢迎您指出~  

自我介绍 ଘ(੭ˊᵕˋ)੭

昵称:海轰

标签:程序猿|C++选手|学生

简介:因C语言结识编程,随后转入计算机专业,获得过国家奖学金,有幸在竞赛中拿过一些国奖、省奖...已保研。

学习经验:扎实基础 + 多做笔记 + 多敲代码 + 多思考 + 学好英语!  

唯有努力💪  

知其然 知其所以然!

本文只记录感兴趣的部分

3. PROBLEM DEFINITION

Definition 1. (Information Network)

  • G=(V,E)G=(V,E)

  • e=(u,v),eE,u,vVe=(u,v), e\in E,u,v\in V

  • wu,vw_{u,v}:节点u、v之间边的权重

现实中,信息网络可以是定向的(如引用网络),也可以是非定向的(如Facebook中用户的社交网络)。这些边的权值可以是二值的,也可以取任何实数

  • 例如,在引文网络和社交网络中,wuvw_{uv}取二值(0或1);
  • 在不同对象间的共现网络中,wuvw_{uv}可以取任意非负值。

注意,虽然负权边是可能的,但在本研究中我们只考虑非负权边。

在某些网络中,当一些对象多次共出现而另一些对象可能只共出现几次时,边缘的权值可能会发生分歧。(没懂)


Definition 2. (First-order Proximity)

网络中的一阶邻近性是两个顶点之间的局部两两邻近性。

  • 对于每一对由边(u,v)(u, v)连接的顶点,该边的权值wuvw_{uv}表示uuvv之间的一阶接近度。
  • 如果uuvv之间没有边,则它们的一阶接近度为0。

一阶邻近度通常意味着网络中两个节点的相似性

例如,在社交网络中彼此是朋友的人往往拥有相似的兴趣;在万维网中相互链接的页面往往谈论相似的话题。

由于这种重要性,许多现有的图嵌入算法,如ISOMAP、LLE、拉普拉斯特征映射和图因式分解,都以保持一阶邻近性为目标。

然而,在现实世界的信息网络中,观察到的连接只占一小部分,还有许多其他链接缺失[10]。

缺失链路上的一对节点具有零一阶邻近度(缺失边,一阶邻近性为0),即使它们本质上彼此非常相似。

因此,仅有一阶邻近性不足以保存网络结构,重要的是寻求另一种邻近性概念来解决稀疏性问题

一种自然的直觉是,共享相似邻居的顶点往往彼此相似

例如

  • 在社交网络中,拥有相似朋友的人往往有相似的兴趣,从而成为朋友;
  • 在单词共现网络中,总是与同一组单词共现的单词往往具有相似的含义。

因此,我们定义了二阶邻近度,它补充了一阶邻近度,并保持了网络结构


Definition 3. (Second-order Proximity)

网络中一对顶点(u,v)(u, v)之间的二阶邻近性是其邻域网络结构之间的相似性

pu=(wu,1wuV)p_u = (w_{u,1},…, w_{u,|V |})表示uu与所有其他顶点的一阶邻近性

uuvv的二阶接近度由pup_upvp_v的相似度决定

如果没有一个顶点同时连接到u和v,那么u和v之间的二阶邻近性为0。


Definition 4. (Large-scale Information Network Embedding)

给定一个大网络G=(V,E)G = (V, E),大规模信息网络嵌入问题的目标是将每个顶点vVv∈V表示到一个低维空间RdR^d

即学习函数fG:VRdf_G: V→R^d,其中 d<<Vd << |V |

在空间RdR^d中,顶点之间的一阶邻近性和二阶邻近性都保持不变。

结语

文章仅作为个人学习笔记记录,记录从0到1的一个过程

希望对您有一点点帮助,如有错误欢迎小伙伴指正

在这里插入图片描述