欢迎光临散文网 会员登陆 & 注册

打卡笔记-Stanford CS224W-Ch2

2023-02-16 23:06 作者:水原木火  | 我要投稿

1.3

图的基本表示

  • Objects:nodes(节点)、vertices(顶点)表示为NN

  • Interactions(关系):links、edges表示为EE

  • System:network、graph表示为G(N,E)G(N,E)

设计本体图

  • 如何设计本体图,取决于将来想解决什么样的问题

  • 有些时候,本体图是唯一的、无歧义的

图的类型

  • 无向图:连接是无方向的

  • 有向图:连接是有方向的

  • 异质图:节点和连接都存在不同的类型

  • 二分图(Bipartite Graph)

  • 节点只有两类

  • 展开二分图:将连接了另一类的节点进行分别连接

节点连接数

  • 无向图:平均度为

  • 有向图:平均度为

邻接矩阵Adjacency Matrix

  • 无向图:

  • 邻接矩阵是对称阵

  • ,主对角线为0,A_{ii} = 0Aii=0

  • 连接总数:

  • 沿行或列求和均可:

  • 有向图

  • 邻接矩阵是非对称矩阵,

  • 连接总数:

2.6 连接列表、邻接列表

  • 连接列表:只记录存在连接的节点对

  • 邻接列表:只记录相关连接的节点,每个节点占用一行

2.1总结:


2.1

图数据挖掘任务分类:

  • 节点层面:信用卡欺诈用户的挖掘

  • 连接层面:Facebook预测可能认识的人,预测某两个节点之间是否有连接以及连接的种类;

  • 全图层面:与非一个蛋白质分子的功能

传统机器学习(人工特征+机器学习)

节点属性特征;

连接特征,节点和其他节点之间连接的特征;结构信息

本节主要讨论无向图;

特征非常重要,

Eigenvector centrality

,这是一个递归的求解;等价于

,A是邻接矩阵,c 是A的eigenvectors;

Betweenness centrality

Closeness centrality

u和v之间最短路径长度累加;

Node Feature: Clustering Coefficient

Graphlet Degree Vector (GDV)

A count vector of graphlets rooted at a given node;(因为是u节点邻域的信息,不包括u节点)

2.2总结

2.2 连接层面的特征工程

the task is to predict new links based on the existing links;

at test time, node pairs (with no existing links) are ranked, and top K pairs are predicted.

the key is to design features for a pair of nodes.

方法:

  • For each pair of nodes (x, y) compute score c(x ,y) (例如 x 和 y 的共有邻居);

Link-Level Features: Overview

  • Distance-based feature

  • Shortest-path distance between two nodes; 但是这样忽略了例如多条路径的信息

  • Local neighborhood overlap

  • Common neighbors (共同好友个数)

  • jaccard's coefficient:

  • (交互比);

  • Adamic-Adar index:

  • (共同好友是不是社牛)

  • 缺点:如果两个节点没有共同节点

  • Global neighborhood overlap

  • Katz index: count the number of walks of all lengths between a given pair of nodes. 节点u和节点v之间长度为K的路径个数

  • 两节点之间 walks 计算方法:计算 adjacency matrix (邻接矩阵) 的幂;

2.3 总结

2.3 全图层面的特征工程

把整张图变成d维向量,能反映全图的结构特点;

Goal: design graph feature vector

Key idea:

  • Bag-of-Words (BoW) for a graph

  • Bag of node degrees; Bag-of-*

  • Count the number of different graphlets in a graph

  • 这里不是针对 rooted 的图,而是针对全图视角的,区别于节点工程中的针对邻域的graphlet

  • Graphlet Kernel:

  • ,如果

  • size不同,那么用归一化的方式进行处理

  • 子图匹配非常消耗算力,枚举;

  • 可用于各种 kernel;

  • Weisfeiler-Lehman Kernel:

  • Goal: Design an efficient graph feature descriptor

  • ,color reinforcement 


打卡笔记-Stanford CS224W-Ch2的评论 (共 条)

分享到微博请遵守国家法律