fukasawat78
/
simple-data-science-notebook
connected to https://github.com/fukasawat78/simple-data-science-notebook.git


  
1

	
2

	
3

	
4

	
5

	
6

	
7

	
8

	
9

	
10

	
11

	
12

	
13

	
14

	
15

	
16

	
17

	
18

	
19

	
20

	
21

	
22

	
23

	
24

	
25

	
26

	
27

	
28

	
29

	
30

	
31

	
32

	
33

	
34

	
35

	
36

	
37

	
38

	
39

	
40

	
41

	
42

	
43

	
44

	
45

	
46

	
47

	
48

	
49

	
50

	
51

	
52

	
53

	
54

	
55

	
56

	
57

	
58

	
59

	
60

	
61

	
62

	
63

	
64

	
65

	
66

	
67

	
68

	
69

	
70

	
71

	
72

	
73

	
74

	
75

	
76

	
77

	
78

	
79

	
80

	
81

	
82

	
83

	
84

	
85

	
86

	
87

	
88

	
89

	
90

	
91

	
92

	
93

	
94

	
95

	
96

	
97

	
98

	
99

	
100

	
101

	
102

	
103

	
            from typing import List
import numpy as np
import pandas as pd
from feature_engine.encoding import (
    OrdinalEncoder, 
    OneHotEncoder, 
    CountFrequencyEncoder, 
    RareLabelEncoder
)

# --------------------------------------
# カテゴリー値に変換
# --------------------------------------
def ordinal_encoder(
    df: pd.DataFrame,
    cat_col_names: List,
) -> pd.DataFrame:
    
    oe = OrdinalEncoder(
        encoding_method='arbitrary',
        variables=cat_col_names,
    )
    
    df = oe.fit_transform(df)
        
    return df

# --------------------------------------
# (0, 1)に変換
# --------------------------------------
def onehot_encoder(
    df: pd.DataFrame,
    cat_col_names: List,
) -> pd.DataFrame:
    
    ohe = OneHotEncoder(
        top_categories=10,
        drop_last=True,
        variables=cat_col_names
    )
    
    df_ohe = ohe.fit_transform(df[cat_col_names])
    
    df_ = pd.concat([df, df_ohe], axis=1)
                          
    return df_

# --------------------------------------
# ラベルの出現頻度に変換
# --------------------------------------
def count_freq_encoder(
    df: pd.DataFrame,
    cat_col_names: List,
) -> pd.DataFrame:
    
    ce = CountFrequencyEncoder(
        encoding_method='frequency',
        variables=cat_col_names
    )
   
    df_ce = ce.fit_transform(df[cat_col_names])
    df_ce = df_ce.add_suffix("_count_freq")
    
    df_ = pd.concat([df, df_ce], axis=1)
    
    return df_

# --------------------------------------
# 出現頻度の低いラベルはまとめたカテゴリーに変換
# --------------------------------------
def rarelabel_encoder(
    df: pd.DataFrame,
    cat_col_names: List,
) -> pd.DataFrame:
    
    re = RareLabelEncoder(
        tol=0.10, 
        n_categories=10,
        variables=cat_col_names
    )
    
    df = re.fit_transform(df)
    
    return df
    
# --------------------------------------
# 出現頻度のランクに変換
# --------------------------------------
def count_rank_encoder(
    df: pd.DataFrame,
    cat_col_names: List,
) -> pd.DataFrame:
    
    for col in cat_col_names:
        count_rank = df.groupby(col)[col].count().rank(ascending=False)
        df[f"{col}_count"] = df[col].map(count_rank)
        
    return df