Simon
/
graph-barlow-twins
mirror of https://github.com/pbielak/graph-barlow-twins


  
1

	
2

	
3

	
4

	
5

	
6

	
7

	
8

	
9

	
10

	
11

	
12

	
13

	
14

	
15

	
16

	
17

	
18

	
19

	
20

	
21

	
22

	
23

	
24

	
25

	
26

	
27

	
28

	
29

	
30

	
31

	
32

	
33

	
34

	
35

	
36

	
37

	
38

	
39

	
40

	
41

	
42

	
43

	
44

	
45

	
46

	
47

	
48

	
49

	
50

	
51

	
52

	
53

	
54

	
55

	
56

	
57

	
58

	
59

	
60

	
61

	
62

	
63

	
64

	
65

	
66

	
67

	
68

	
69

	
70

	
71

	
72

	
73

	
74

	
75

	
76

	
77

	
78

	
79

	
80

	
81

	
82

	
83

	
84

	
85

	
86

	
87

	
88

	
89

	
90

	
91

	
92

	
93

	
94

	
95

	
96

	
97

	
98

	
99

	
100

	
101

	
102

	
103

	
104

	
105

	
106

	
107

	
108

	
109

	
110

	
111

	
112

	
113

	
114

	
115

	
116

	
117

	
118

	
            import os
from typing import Dict, List, Tuple

from ogb.nodeproppred import PygNodePropPredDataset
import torch
from torch_geometric.data import Data
from torch_geometric.datasets import Amazon, Coauthor, PPI, WikiCS
from torch_geometric import transforms as T
from torch_geometric.utils import to_undirected

from gssl import DATA_DIR


def load_dataset(name: str) -> Tuple[Data, List[Dict[str, torch.Tensor]]]:
    ds_path = os.path.join(DATA_DIR, "datasets/", name)
    feature_norm = T.NormalizeFeatures()
    create_masks = T.AddTrainValTestMask(
        split="train_rest",
        num_splits=20,
        num_val=0.1,
        num_test=0.8,
    )

    if name == "WikiCS":
        data = WikiCS(
            root=ds_path,
            transform=feature_norm,
        )[0]
    elif name == "Amazon-CS":
        data = Amazon(
            root=ds_path,
            name="computers",
            transform=feature_norm,
            pre_transform=create_masks,
        )[0]
    elif name == "Amazon-Photo":
        data = Amazon(
            root=ds_path,
            name="photo",
            transform=feature_norm,
            pre_transform=create_masks,
        )[0]
    elif name == "Coauthor-CS":
        data = Coauthor(
            root=ds_path,
            name="cs",
            transform=feature_norm,
            pre_transform=create_masks,
        )[0]
    elif name == "Coauthor-Physics":
        data = Coauthor(
            root=ds_path,
            name="physics",
            transform=feature_norm,
            pre_transform=create_masks,
        )[0]
    elif name == "ogbn-arxiv":
        data = read_ogb_dataset(name=name, path=ds_path)
        data.edge_index = to_undirected(data.edge_index, data.num_nodes)
    elif name == "ogbn-products":
        data = read_ogb_dataset(name=name, path=ds_path)
    else:
        raise ValueError(f"Unknown dataset: {name}")

    if name in ("ogbn-arxiv", "ogbn-products"):
        masks = [
            {
                "train": data.train_mask,
                "val": data.val_mask,
                "test": data.test_mask,
            }
        ]
    else:
        masks = [
            {
                "train": data.train_mask[:, i],
                "val": data.val_mask[:, i],
                "test": (
                    data.test_mask
                    if name == "WikiCS"
                    else data.test_mask[:, i]
                ),
            }
            for i in range(20)
        ]

    return data, masks


def read_ogb_dataset(name: str, path: str) -> Data:
    dataset = PygNodePropPredDataset(root=path, name=name)
    split_idx = dataset.get_idx_split()

    data = dataset[0]

    data.train_mask = torch.zeros((data.num_nodes,), dtype=torch.bool)
    data.train_mask[split_idx["train"]] = True

    data.val_mask = torch.zeros((data.num_nodes,), dtype=torch.bool)
    data.val_mask[split_idx["valid"]] = True

    data.test_mask = torch.zeros((data.num_nodes,), dtype=torch.bool)
    data.test_mask[split_idx["test"]] = True

    data.y = data.y.squeeze(dim=-1)

    return data


def load_ppi() -> Tuple[PPI, PPI, PPI]:
    ds_path = os.path.join(DATA_DIR, "datasets/PPI")
    feature_norm = T.NormalizeFeatures()

    train_ppi = PPI(root=ds_path, split="train", transform=feature_norm)
    val_ppi = PPI(root=ds_path, split="val", transform=feature_norm)
    test_ppi = PPI(root=ds_path, split="test", transform=feature_norm)

    return train_ppi, val_ppi, test_ppi