fukasawat78
/
simple-data-science-notebook
connected to https://github.com/fukasawat78/simple-data-science-notebook.git


  
1

	
2

	
3

	
4

	
5

	
6

	
7

	
8

	
9

	
10

	
11

	
12

	
13

	
14

	
15

	
16

	
17

	
18

	
19

	
20

	
21

	
22

	
23

	
24

	
25

	
26

	
27

	
28

	
29

	
30

	
31

	
32

	
33

	
34

	
35

	
36

	
37

	
38

	
39

	
40

	
41

	
42

	
43

	
44

	
45

	
46

	
47

	
48

	
49

	
50

	
51

	
52

	
53

	
54

	
55

	
56

	
57

	
58

	
59

	
60

	
61

	
62

	
63

	
            from typing import Dict
import numpy as np
import pandas as pd

from sklearn.base import BaseEstimator, TransformerMixin

from feature_engine.imputation import (
    CategoricalImputer,
    AddMissingIndicator,
    MeanMedianImputer)

from feature_engine.encoding import (
    OrdinalEncoder, 
    OneHotEncoder, 
    CountFrequencyEncoder, 
    RareLabelEncoder
)

from sklearn.pipeline import Pipeline
import lightgbm as lgbm

# --------------------------------------
# 全体処理のパイプライン
# --------------------------------------
def create_pipeline(
    config: Dict,
    df: pd.DataFrame
) -> pd.DataFrame:
    
    mypipeline = Pipeline([
        
        # Inputation
        ('categorical_imputation'. CategoricalImputer(
            imputation_method='missing', 
            varibales=config["cat_col_names"])
        ),
        
        # add missing indicator to numerical variables
        ('missing_indicator', AddMissingIndicator(
            variables=config["cat_col_names"])
        ),
        
       
        # categorical encoder
        ('rare_label_encoder', RareLabelEncoder(
            tol=0.05, 
            variables=config["cat_col_names"])
        ),
        
        ('categorical_encoder', OneHotEncoder(
            top_categories=10,
            drop_last=True,
            variables=config["cat_col_names"])
        ),
        
    
        ('classifier', lgbm.LGBMClassifier()),
        
    ])
    
    return mypipeline