zoumana.keita
/
Multi_language_Sentiment_Classification


  
1

	
2

	
3

	
4

	
5

	
6

	
7

	
8

	
9

	
10

	
11

	
12

	
13

	
14

	
15

	
16

	
17

	
18

	
19

	
20

	
21

	
22

	
23

	
24

	
25

	
26

	
27

	
28

	
29

	
30

	
31

	
32

	
33

	
34

	
35

	
36

	
37

	
38

	
39

	
40

	
41

	
42

	
43

	
44

	
45

	
46

	
            import pandas as pd 
import numpy as np
import mlflow
import yaml
import os
from os.path import join
from transformers import pipeline

from packages.evaluate_utilities import get_data_sample, predictions_evaluation

# Get all the required yaml files
params_process = yaml.safe_load(open("params.yaml"))["preprocess"]
params_eval = yaml.safe_load(open("params.yaml"))["evaluate"]
mlflow_config = yaml.safe_load(open("credentials.yaml"))["mlflow_config"]


combined_file_path =  join("data", "processed", params_process['final_file_name']+params_process['final_ext'])
combined_files = pd.read_csv(combined_file_path)

# Model definition
zsmlc_classifier = pipeline("zero-shot-classification", 
                            model='joeddav/xlm-roberta-large-xnli')


# Getting Mlflow credentials
MLFLOW_TRACKING_URI= mlflow_config['MLFLOW_TRACKING_URI']
MLFLOW_TRACKING_USERNAME = mlflow_config['MLFLOW_TRACKING_USERNAME']
MLFLOW_TRACKING_PASSWORD = mlflow_config['MLFLOW_TRACKING_PASSWORD'] 

os.environ['MLFLOW_TRACKING_USERNAME'] = MLFLOW_TRACKING_USERNAME
os.environ['MLFLOW_TRACKING_PASSWORD'] = MLFLOW_TRACKING_PASSWORD
mlflow.set_tracking_uri(MLFLOW_TRACKING_URI)

if __name__ == "__main__":

    mlflow.set_experiment("Multi-linguage-classification")

    with mlflow.start_run():
        for language in combined_files['language'].unique():
            lang_sample_data = get_data_sample(combined_files, language)
            pred_eval = predictions_evaluation(lang_sample_data, zsmlc_classifier)

            # Log different metrics
            mlflow.log_metric(language+"_accuracy", pred_eval['accuracy'])
            mlflow.log_metric(language+"_f1_score", pred_eval['f1_score'])