图机器学习基础知识——通用框架（MPNN、NLNN、GN）

乙烷

1558人浏览 · 2024-04-14 00:08:38

乙烷 · 2024-04-14 00:08:38 发布

通用框架

MPNN（Message Passing Neural Network）

消息传递神经网络

MPNN包含两个阶段：
- 消息传递阶段
  
  Message Passing
  - 消息传递阶段运行 $T$ 个时间步，包含两个子函数：消息函数 $M_t$ 和节点更新函数 $U_t$ 。使用消息 $m_v^t$ ，隐状态 $h_v^t$ 的更新函数如下：
    
    $\bm{ m_v^{t+1} = \sum\limits_{w \in N_v}M_t(h_v^t, h_w^t, e_{vw}) }$
    
    $\bm{ h_v^{t+1} = U_t(h_v^t, m_v^{t+1}) }$
    其中， $e_{vw}$ 表示从 $v$ 到 $w$ 的边的特征
- 读出阶段
  
  Readout
  - Readout阶段使用读出函数R来计算全图的表示：
    
    $\bm{ \hat{y} = R(\{h_v^T | v \in G\}) }$
MPNN可以通过设置不同的消息函数、节点更新函数和读出函数来变成不同的模型

NLNN（Non-Local Neural Network，NLNN）

非局部神经网络

NLNN利用DNN捕捉远程依赖关系，NLNN的非局部运算会针对特定位置计算所有位置的的特征加权总和，位置既可以是时间维度上的位置，也可以是空间维度上的位置。NLNN可以看作是多种“Self-Attention”机制的统一。
泛化的非局部运算的一般定义如下：

$\bm{ h_i^{'} = \frac{1}{C(h)}\sum\limits_{\forall j}f(h_i, h_j)g(h_j) }$
其中，i是目标位置，j的选择应枚举所有可能的位置。 $f(h_i, h_j)$ 用于计算位置i和j之间的Attention Score。 $g(h_j)$ 表示输入 $h_j$ 的变换，因子 $\frac{1}{C(h)}$ 用于将结果归一化
- 函数g的选择
  - 线性变换
    
    $\bm{ g(h_j) = W_gh_j }$
- 函数f的选择
  - 高斯函数
    
    $\bm{ f(h_i, h_j) = e^{h_i^Th_j} }$
    其中， $h_i^Th_j$ 是点积相似度，且有 $\sum\limits_{\forall j}f(h_i, h_j)$
  - 嵌入高斯函数
    
    Self-Attention是嵌入高斯函数的一个特例
    
    $\bm{ f(h_i, h_j) = e^{θ(h_i)^TΦ(h_j)} }$
    其中， $θ(h_i) = W_θh_i$ ， $Φ(h_j) = W_Φh_j$ ，且 $\sum\limits_{\forall j}f(h_i, h_j)$
  - 点积函数
    
    $\bm{ f(h_i, h_j) = θ(h_i)^TΦ(h_j) }$
    其中， $C (h) = N$ ， $N$ 表示 $h$ 中的位置个数
  - 拼接函数
    
    $\bm{ f(h_i, h_j) = ReLU(w_f^T[θ(h_i) || Φ(h_j)]) }$
    其中， $w_f$ 是将向量投影到标量的权重向量， $有 C (h) = N$
  - 非局部块（Non-local Neural Networks）
    
    Paper : Non-local Neural Networks
    
    $\bm{ z_i = W_zh_i^{'} + h_i }$

GN

Paper : Relational inductive biases, deep learning, and graph network

GN，囊括并扩展了各种GNN，以及MPNN和NLNN

GN块包含3个更新函数Φ，以及3个聚合函数ρ：

$\begin{array}{lr} \mathbf{e}_{k}^{\prime}=\phi^{e}\left(\mathbf{e}_{k}, \mathbf{v}_{r_{k}}, \mathbf{v}_{s_{k}}, \mathbf{u}\right) & \overline{\mathbf{e}}_{i}^{\prime}=\rho^{e \rightarrow v}\left(E_{i}^{\prime}\right) \\ \mathbf{v}_{i}^{\prime}=\phi^{v}\left(\overline{\mathbf{e}}_{i}^{\prime}, \mathbf{v}_{i}, \mathbf{u}\right) & \overline{\mathbf{e}}^{\prime}=\rho^{e \rightarrow u}\left(E^{\prime}\right) \\ \mathbf{u}^{\prime}=\phi^{u}\left(\overline{\mathbf{e}}^{\prime}, \overline{\mathbf{v}}^{\prime}, \mathbf{u}\right) & \overline{\mathbf{v}}^{\prime}=\rho^{v \rightarrow u}\left(V^{\prime}\right) \end{array}$