pyg的NeighborLoader和LinkNeighborLoader
data:要求加载或者类型数据;: 每轮迭代要采样邻居节点的个数,即第i-1轮要为每个节点采样个节点,如果为-1,则代表所有邻居节点都将被包含(一阶相邻邻居),在异构图中,还可以使用字典来表示每个单独的边缘类型要采样的邻居数量;: 中心节点集合,用来指导采样一个mini-batch内的节点,如果为None,则代表包含data中的所有节点。如果设置为 None,将考虑所有节点。在异构图中,需要作为包
NeighborLoader
1 数据格式要求
需要传入加载的属性值:
class NeighborLoader(data: Union[Data, HeteroData, Tuple[FeatureStore, GraphStore]],
num_neighbors: Union[List[int], Dict[Tuple[str, str, str], List[int]]],
input_nodes: Union[Tensor, None, str, Tuple[str, Optional[Tensor]]] = None,
input_time: Optional[Tensor] = None,
replace: bool = False,
directed: bool = True,
disjoint: bool = False,
temporal_strategy: str = 'uniform',
time_attr: Optional[str] = None,
transform: Optional[Callable] = None,
transform_sampler_output: Optional[Callable] = None,
is_sorted: bool = False,
filter_per_worker: bool = False,
neighbor_sampler: Optional[NeighborSampler] = None, **kwargs)
data: 要求加载 torch_geometric.data.Data 或者 torch_geometric.data.HeteroData 类型数据;
num_neighbors
: 每轮迭代要采样邻居节点的个数,即第i-1轮要为每个节点采样num_neighbors[i]
个节点,如果为-1,则代表所有邻居节点都将被包含(一阶相邻邻居),在异构图中,还可以使用字典来表示每个单独的边缘类型要采样的邻居数量;
input_nodes
: 中心节点集合,用来指导采样一个mini-batch内的节点,如果为None,则代表包含data中的所有节点。如果设置为 None,将考虑所有节点。在异构图中,需要作为包含节点类型和节点索引的元组传递。 (默认值:None)
input_time (torch.Tensor, optional) – 可选值,用于覆盖 input_nodes 中给定的输入节点的时间戳。如果未设置,将使用 time_attr 中的时间戳作为默认值(如果存在)。需要设置 time_attr 才能使其工作。 (默认值:None)
replace (bool, optional) – 如果设置为 True,将进行替换采样。 (默认值:False)
directed (bool, optional) – 如果设置为 False,将包括所有采样节点之间的所有边。 (默认值:True)
disjoint (bool, optional) – 如果设置为 :obj: True,每个种子节点将创建自己的不相交子图。如果设置为 True,小批量输出将有一个批量向量保存节点到它们各自子图的映射。在时间采样的情况下将自动设置为 True。 (默认值:False)
temporal_strategy (str, optional) -- 使用时间采样时的采样策略(“uniform”、“last”)。如果设置为“uniform”,将在满足时间约束的邻居之间统一采样。如果设置为“last”,将对满足时间约束的最后 num_neighbors 进行采样。 (默认值:“uniform”)
transform (callable, optional) – 一个函数/转换,它接受一个采样的小批量并返回一个转换后的版本。 (默认值:None)
transform_sampler_output (callable, optional) – 接受 SamplerOutput 并返回转换后版本的函数/转换。 (默认值:无)
**kwargs(可选)—— torch.utils.data.DataLoader 的附加参数,例如 batch_size、shuffle、drop_last 或 num_workers。
2 上述参数使用案例:
(1)当 num_neighbors = [-1]时,获取中心节点所有的一阶邻居;
batch_size=1,表示中心节点只有一个;
from torch_geometric.datasets import Planetoid
from torch_geometric.loader import NeighborLoader
import torch
import networkx as nx
import matplotlib.pyplot as plt
data = Planetoid('./dataset', name='Cora')[0]
loader_2 = NeighborLoader(
data,
num_neighbors=[-1],
batch_size=1,
input_nodes=data.n_id,
)
# 准备边数据
sampled_data_2 = next(iter(loader_2))
# sampled_data_2 输出格式:
# Data(x=[4, 1433], edge_index=[2, 3], y=[4], train_mask=[4], val_mask=[4], test_mask=[4], n_id=[4], batch_size=1)
edge_2 = np.array(sampled_data_2.edge_index).T
edge_2 = edge_2.tolist()
edge_2 = list(tuple(line) for line in edge_2)
# 画图展示
G_2 = nx.Graph()
G_2.add_edges_from(edge_2)
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
option = {'font_family':'serif', 'font_size':'15', 'font_weight':'semibold'}
nx.draw_networkx(G_2, node_size=400, **option)
plt.show()
画图展示:
代码中的sampled_data_2中的涉及节点的输出:
sampled_data_2.n_id
# tensor([ 0, 633, 1862, 2582])
# 前batch_size个节点为中心节点
(2)当 num_neighbors = [2,3]时,获取中心节点所有的一阶邻居(任选取3个节点)以及一阶邻居的邻居(任选取两个节点);
代码展示:
from torch_geometric.datasets import Planetoid
from torch_geometric.loader import NeighborLoader
import torch
import networkx as nx
import matplotlib.pyplot as plt
data = Planetoid('./dataset', name='Cora')[0]
data.n_id = torch.arange(data.num_nodes)
loader_2 = NeighborLoader(
data,
num_neighbors=[2,3],
batch_size=3,
input_nodes=data.n_id,
)
# 准备边数据
sampled_data_2 = next(iter(loader_2))
# sampled_data_2 输出格式:
# Data(x=[11, 1433], edge_index=[2, 14], y=[11], train_mask=[11], val_mask=[11], test_mask=[11], n_id=[11], batch_size=3)
edge_2 = np.array(sampled_data_2.edge_index).T
edge_2 = edge_2.tolist()
edge_2 = list(tuple(line) for line in edge_2)
# 画图展示
G_2 = nx.Graph()
G_2.add_edges_from(edge_2)
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
option = {'font_family':'serif', 'font_size':'15', 'font_weight':'semibold'}
nx.draw_networkx(G_2, node_size=400, **option)
plt.show()
代码中的sampled_data_2中的涉及节点的输出:
sampled_data_2.n_id
# tensor([ 0, 1, 2, 633, 2582, 654, 1454, 1701, 1866, 1166, 1862])
# 前batch_size个节点为中心节点
3 获得子图的id的映射
当实际应用中我们要获取训练集和测试集的子图,因此一般输入在NeighborLoader的input_nodes参数的值对应于训练集的id和测试集的id;
而获得的边对应的id不是实际大图中的节点id,而是后来按照顺序分配的;
例如:
from torch_geometric.datasets import Planetoid
from torch_geometric.loader import NeighborLoader,LinkNeighborLoader
import torch
import networkx as nx
import matplotlib.pyplot as plt
data = Planetoid('./dataset', name='Cora')[0]
data.n_id = torch.arange(data.num_nodes)
test_id = torch.tensor([i for i in range(100,120)])
loader_2 = NeighborLoader(
data,
num_neighbors=[2,3],
batch_size=3,
input_nodes=test_id,
)
# 准备边数据
sampled_data_2 = next(iter(loader_2))
# sampled_data_2 输出格式:
#
edge_2 = np.array(sampled_data_2.edge_index).T
edge_2 = edge_2.tolist()
edge_2 = list(tuple(line) for line in edge_2)
# 画图展示
G_2 = nx.Graph()
G_2.add_edges_from(edge_2)
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
option = {'font_family':'serif', 'font_size':'15', 'font_weight':'semibold'}
nx.draw_networkx(G_2, node_size=400, **option)
plt.show()
print(sampled_data_2.edge_index)
print(sampled_data_2.n_id)
print(sampled_data_2.num_nodes)
# 输出
tensor([[ 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 0, 13, 14, 1, 15, 1, 16, 17,
2, 8, 18, 19, 20],
[ 0, 0, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 5, 6, 6, 6,
7, 7, 8, 8, 8]])
tensor([ 100, 101, 102, 1602, 2056, 281, 1589, 1561, 1623, 95, 315, 2073,
734, 1628, 1347, 1382, 1745, 2596, 1769, 1772, 1771])
21
将图进行可视化时,可以映射回大图中的id
2 LinkNeighborLoader
1 数据格式要求
需要传入加载的属性值:
class LinkNeighborLoader(data: Union[Data, HeteroData, Tuple[FeatureStore, GraphStore]],
num_neighbors: Union[List[int], Dict[Tuple[str, str, str], List[int]]],
edge_label_index: Union[Tensor, None, Tuple[str, str, str], Tuple[Tuple[str, str, str], Optional[Tensor]]] = None,
edge_label: Optional[Tensor] = None,
edge_label_time: Optional[Tensor] = None, replace: bool = False,
directed: bool = True, disjoint: bool = False,
temporal_strategy: str = 'uniform',
neg_sampling: Optional[NegativeSampling] = None,
neg_sampling_ratio: Optional[Union[int, float]] = None,
time_attr: Optional[str] = None,
transform: Optional[Callable] = None,
transform_sampler_output: Optional[Callable] = None,
is_sorted: bool = False,
filter_per_worker: bool = False,
neighbor_sampler: Optional[NeighborSampler] = None, **kwargs)
作为基于节点的 torch_geometric.loader.NeighborLoader 的扩展派生的基于链接的数据加载器。该加载器允许在无法进行整批训练的大规模图上对 GNN 进行小批量训练。
更具体地说,这个加载器首先从输入边 edge_label_index 集合中选择一个边样本(它可能是原始图中的边,也可能不是原始图中的边),然后通过在每次迭代中采样 num_neighbors 个邻居,从这个列表中存在的所有节点构造一个子图.
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)