cornelliusyudhawijaya
/
cml_dvc_case
connected to https://github.com/cornelliusyudhawijaya/cml_dvc_case.git


  
1

	
2

	
3

	
4

	
5

	
6

	
7

	
8

	
9

	
10

	
11

	
12

	
13

	
14

	
15

	
16

	
17

	
18

	
19

	
20

	
21

	
            from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
import numpy as np
import os

seed = 42
# Generate data
X, y = make_classification(n_samples = 100000, random_state=seed)

# Make a train test split
X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=seed)

# Save it
if not os.path.isdir("data"):
    os.mkdir("data")
np.savetxt("data/train_features.csv",X_train)
np.savetxt("data/test_features.csv",X_test)
np.savetxt("data/train_labels.csv",y_train)
np.savetxt("data/test_labels.csv",y_test)