README.es.md

6d9ca70401

added links to the new quiz apps

3 years ago

README.it.md

6d9ca70401

added links to the new quiz apps

3 years ago

README.ko.md

6d9ca70401

added links to the new quiz apps

3 years ago

README.pt-br.md

6d9ca70401

added links to the new quiz apps

3 years ago

README.tr.md

6d9ca70401

added links to the new quiz apps

3 years ago

README.zh-cn.md

6d9ca70401

added links to the new quiz apps

3 years ago

assignment.es.md

59831e93d1

(spanish): 4-Classification/1-Introduction/assignment.md (#515)

3 years ago

assignment.it.md

f73b84f84a

Italian Translation - Chapter 4 complete

4 years ago

assignment.ko.md

d516b3c97a

[WIP] Translate assignments and quizzes to Korean (#151)

3 years ago

assignment.pt-br.md

b519f2ebde

Add pt-BR translation to Classification lessons (#483)

3 years ago

assignment.tr.md

54a3eb726b

Add 3 files translated to Turkish under Classification lesson

4 years ago

assignment.zh-cn.md

3a693b84e2

[zh-cn] 4/1/assignment (#332)

4 years ago

You have to be logged in to leave a comment.

Introducción a la clasificación

En estas cuatro lecciones, explorarás un enfoque fundamental de aprendizaje automático clásico - classification. Ensayaremos usando varios algoritmos de clasificación con un conjunto de datos acerca de todas las cocinas brillantes de Asia e India. ¡Espero estés hambriento!

¡Celebra las cocinas de toda Asia en estas lecciones! Imagen de Jen Looper

La clasificación es una form de aprendizaje supervisado que conlleva mucho en común con técnicas de regresión. Si el aprendizaje automático trata todo acerca de la predicción de valores o nombres para las cosas usando conjuntos de datos, entonces la clasificación generalmente recae en dos grupos: clasificación binaria y clasificación multiclase.

🎥 Da clic en la imagen de arriba para ver el video: John Guttag del MIT presenta la clasificación

Recuerda:

La regresión lineal te ayudó a predecir las relaciones entre las variables y hacer predicciones precisas donde un nuevo punto de datos podría reacer en una relación a esa línea. Por lo que puedes predecir qué precio tendrá una calabaza en Septiembre vs Diciembre, por ejemplo.
La regresión logística te ayudó a descubrir "categorías binarias": en este punto de precio, ¿la calabaza pertenece a la categoría orange or not-orange?

La clasificación utiliza varios algorítmos para determinar otras formas de determinar la clase o etiqueta de un punto de datos. Trabajemos con estos datos de cocina para ver si, al observar un grupo de ingredientes, podemos determinar su cocina u origen.

Examen previo a la lección

¡Esta lección está disponible en R!

Introducción

La clasificación es una de las actividades fundamentales del investigador de aprendizaje automático y el científico de datos. Desde la clasificación básica de un valor binario ("¿este correo electrónico es o no spam?"), hasta complejas clasificaciones de imágenes y segmentación utilizando la visión por computadora, simpre es útil ser capaz de ordenar los datos en clases y hacerle preguntas.

Para expresar el proceso de una forma más científica, nuestro método de clasificación crea un modelo predictivo que te habilita asignar la relación entre las variables de entrada a las variables de salida.

Problemas binarios vs multiclase para que los algoritmos de clasificación los manejen. Infografía de Jen Looper

Antes de empezar el proceso de limpieza de nuestros datos, visualizarlos, y prepararlos para nuestras tareas de aprendizaje automático, aprendamos un poco acerca de las diversas formas en que el aprendizaje automático puede ser aprovechado para clasificar los datos.

Derivado de las clasificaciones estadísticas, usando cracterística de uso del aprendizaje automático clásico, como smoker, weight, y age para determinar la probabilidad de desarrollar X enfermedad. Como una técnica de aprendizaje supervisada similar para los ejercicios de regresión que desempeñaste anteriormente, tus datos son etiquetados y los algoritmos de aprendizaje automático use esas etiquetas para clasificar y predecir clases (o 'características') de un conjunto de datos y asignarlos a un grupo o resultado.

✅ Date un momento para imaginar un conjunto de datos acerca de las cocinas. ¿Qué sería capaz de responder un modelo multiclase? ¿Qué sería capaz de responder un modelo binario? ¿Qué si quisieras determinar si una cocina dada fuera probable que usara fenogreco? ¿Qué si quisieras ver si, dado un regalo de una bolsa del supermercado llena de anís estrella, alcachofa, coliflor y rábano picante, pudieras crear un platillo Indio típico?

🎥 Da clic en la imagen superior para ver un video. Toda la premisa del programa 'Chopped' es el 'cesto misterioso' donde los chefs tienen que hacer algunos platillos a partir de la elección al azar de ingredientes. ¡Seguramente un modelo de aprendizaje automático habría ayudado!

Hola 'clasificador'

La pregutna que queremos hacer a este conjunto de datos de cocina es realmente una pregunta multiclase, así como tenemos muchas cocinas nacionales potenciales para trabajar, Dado un lote de ingredientes, ¿en cuáles de estas muchas clases encajarán los datos?

Scikit-learn ofrece diversos algoritmos distintos para usar en la clasificación de datos, dependiente en la naturaleza del problema que quieres resolver. En las siguientes dos lecciones, aprenderás acerca de varios de estos algoritmos.

Ejercicio - limpia y equilibra tus datos

La primer tarea a la mano, antes de iniciar este proyecto, es limpiar y equilibrar tus datos para obtener mejores resultados. Comienza con el archivo en blanco notebook.ipynb en la raíz de este directorio.

Lo primero a instalar es imblearn. Este es un paquete de Scikit-learn que te permitirá equilibrar mejor los datos (aprenderás más acerca de esta tarea en un minuto).

Para instalar imblearn, ejecuta pip install, así:
```
pip install imblearn
```
Importa los paquetes que necesitas para importar tus datos y visualizarlos, también importa SMOTE de imblearn.
```
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import numpy as np
from imblearn.over_sampling import SMOTE
```
Ahora está configurado para leer importart los datos a continuación.
La siguiente tarea será importar los datos:
```
df  = pd.read_csv('../data/cuisines.csv')
```
Usando read_csv() leerá el contenido del archivo csv cusines.csv y colocarlo en la variable df.

Comprueba la forma de los datos:

df.head()

Las primeras cinco filas lucen así:

|     | Unnamed: 0 | cuisine | almond | angelica | anise | anise_seed | apple | apple_brandy | apricot | armagnac | ... | whiskey | white_bread | white_wine | whole_grain_wheat_flour | wine | wood | yam | yeast | yogurt | zucchini |
| --- | ---------- | ------- | ------ | -------- | ----- | ---------- | ----- | ------------ | ------- | -------- | --- | ------- | ----------- | ---------- | ----------------------- | ---- | ---- | --- | ----- | ------ | -------- |
| 0   | 65         | indian  | 0      | 0        | 0     | 0          | 0     | 0            | 0       | 0        | ... | 0       | 0           | 0          | 0                       | 0    | 0    | 0   | 0     | 0      | 0        |
| 1   | 66         | indian  | 1      | 0        | 0     | 0          | 0     | 0            | 0       | 0        | ... | 0       | 0           | 0          | 0                       | 0    | 0    | 0   | 0     | 0      | 0        |
| 2   | 67         | indian  | 0      | 0        | 0     | 0          | 0     | 0            | 0       | 0        | ... | 0       | 0           | 0          | 0                       | 0    | 0    | 0   | 0     | 0      | 0        |
| 3   | 68         | indian  | 0      | 0        | 0     | 0          | 0     | 0            | 0       | 0        | ... | 0       | 0           | 0          | 0                       | 0    | 0    | 0   | 0     | 0      | 0        |
| 4   | 69         | indian  | 0      | 0        | 0     | 0          | 0     | 0            | 0       | 0        | ... | 0       | 0           | 0          | 0                       | 0    | 0    | 0   | 0     | 1      | 0        |

Obtén información acerca de estos datos llamando a info():

df.info()

Tu salida se parece a:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2448 entries, 0 to 2447
Columns: 385 entries, Unnamed: 0 to zucchini
dtypes: int64(384), object(1)
memory usage: 7.2+ MB

Ejercicio - aprendiendo acerca de cocinas

Ahora el trabajo comienza a hacerse más interesante. Descubramos la distribución de los datos, por cocina

Grafica los datos como barras llamando barh():
```
df.cuisine.value_counts().plot.barh()
```
Existe un número finito de cocinas, pero la distribución de los datos es irregular. ¡Puedes corregirlo! Anter de hacerlo, explora un poco más.

Descubre cuántos datos están disponibles por cocina e imprímelos:

thai_df = df[(df.cuisine == "thai")]
japanese_df = df[(df.cuisine == "japanese")]
chinese_df = df[(df.cuisine == "chinese")]
indian_df = df[(df.cuisine == "indian")]
korean_df = df[(df.cuisine == "korean")]

print(f'thai df: {thai_df.shape}')
print(f'japanese df: {japanese_df.shape}')
print(f'chinese df: {chinese_df.shape}')
print(f'indian df: {indian_df.shape}')
print(f'korean df: {korean_df.shape}')

la salida luce así:

thai df: (289, 385)
japanese df: (320, 385)
chinese df: (442, 385)
indian df: (598, 385)
korean df: (799, 385)

Descubriendo ingredientes

Ahora puedes profundizar en los datos y aprender cuáles son los ingredientes típicos por cocina. Deberías limpiar los datos recurrentes que crean confusión entre cocinas, así que aprendamos acerca de este problema.

Crea una función create_ingredient() en Python para crear un dataframe ingrediente. Esta función comenzará eliminando una columna inútil y ordenando los ingredientes por su conteo:

def create_ingredient_df(df):
    ingredient_df = df.T.drop(['cuisine','Unnamed: 0']).sum(axis=1).to_frame('value')
    ingredient_df = ingredient_df[(ingredient_df.T != 0).any()]
    ingredient_df = ingredient_df.sort_values(by='value', ascending=False,
    inplace=False)
    return ingredient_df

Ahora puedes usar esa función para tener una idea de los 10 ingredientes más populares por cocina.

Llama create_ingredient() y graficalo llamando barh():

thai_ingredient_df = create_ingredient_df(thai_df)
thai_ingredient_df.head(10).plot.barh()

Haz lo mismo para los datos de ingredientes japoneses:

japanese_ingredient_df = create_ingredient_df(japanese_df)
japanese_ingredient_df.head(10).plot.barh()

Ahora para los ingredientes chinos:

chinese_ingredient_df = create_ingredient_df(chinese_df)
chinese_ingredient_df.head(10).plot.barh()

Grafica los ingredientes indios:

indian_ingredient_df = create_ingredient_df(indian_df)
indian_ingredient_df.head(10).plot.barh()

Finalmente, grafica los ingredientes coreanos:

korean_ingredient_df = create_ingredient_df(korean_df)
korean_ingredient_df.head(10).plot.barh()

Ahora, eliminar los ingredientes más comunes que crean confusión entre las distintas cocinas, llamando drop():

¡Todos aman el arroz, el ajo y el gengibre!
```
feature_df= df.drop(['cuisine','Unnamed: 0','rice','garlic','ginger'], axis=1)
labels_df = df.cuisine #.unique()
feature_df.head()
```

Equilibra el conjunto de datos

Ahora que has limpiado los datos, usa SMOTE - "Técnica de sobremuestreo de minoritario sintético" - para equilibrarlo.

Llama fit_resample(), esta estrategia genera nuevas muestras por interpolación.
```
oversample = SMOTE()
transformed_feature_df, transformed_label_df = oversample.fit_resample(feature_df, labels_df)
```
Al equilibrar tus datos, tendrás mejores resultados cuando los clasifiques. Piensa en una clasificación binaria. Si la mayoría de tus datos es una clase, un modelo de aprendizaje automático va a predecir esa clase más frecuentemente, solo porque hay más datos para ello. Equilibrar los datos toma cualquier dato sesgado y ayuda a remover este desequilibrio.

Ahora puedes comprobar los números de etiquetas por ingredientes:

print(f'new label count: {transformed_label_df.value_counts()}')
print(f'old label count: {df.cuisine.value_counts()}')

Tu salida luce así:

new label count: korean      799
chinese     799
indian      799
japanese    799
thai        799
Name: cuisine, dtype: int64
old label count: korean      799
indian      598
chinese     442
japanese    320
thai        289
Name: cuisine, dtype: int64

Los datos están bien y limpios, equilibrados ¡y muy deliciosos!

El último paso es guardar tus datos equilibrados, incluyendo etiquetas y características, en un nuevo dataframe que pueda ser exportado a un archivo:
```
transformed_df = pd.concat([transformed_label_df,transformed_feature_df],axis=1, join='outer')
```
Puedes dar un vistazo más a los datos usando transformed_df.head() y transformed_df.info(). Guarda una copia de estos datos para un uso en futuras lecciones:
```
transformed_df.head()
transformed_df.info()
transformed_df.to_csv("../data/cleaned_cuisines.csv")
```
Este nuevo CSV ahora puede ser encontrado en la directorio raíz data.

🚀Desafío

Este plan de estudios contiene varios conjuntos de datos interesantes. Profundiza en los directorios data y ve si alguno contiene conjuntos de datos que serían apropiados para clasificación binaria o multiclase. ¿Qué preguntas harías a este conunto de datos?

Examen posterior a la lección

Revisión y autoestudio

Explora la API de SMOTE. ¿Para qué casos de uso es se usa mejor? ¿Qué problemas resuelve?

Asignación

Explora métodos de clasificación

Tip!

Press p or to see the previous file or, n or to see the next file

Specify your S3 bucket

Bucket name cannot be the same as the repository name. Please change one of them.

Bucket url and prefix

Region

Endpoint Url

Disable SSL verification

README.es.md

Introducción a la clasificación

Examen previo a la lección

¡Esta lección está disponible en R!

Introducción

Hola 'clasificador'

Ejercicio - limpia y equilibra tus datos

Ejercicio - aprendiendo acerca de cocinas

Descubriendo ingredientes

Equilibra el conjunto de datos

🚀Desafío

Examen posterior a la lección

Revisión y autoestudio

Asignación

Comments

Use AWS S3 as storage!

Specify your S3 bucket

Access key (If needed)

Congratulations!

Use Google Cloud Storage!

Specify your Google Storage bucket

Service Account Key

Congratulations!

Use Azure Cloud Storage!

Specify your Azure Storage bucket

Access key (If needed)

Congratulations!

Use any S3 compatible storage!

Specify your S3 bucket

Access key (If needed)

Congratulations!

nirbarazida / ML-For-Beginners mirror of https://github.com/microsoft/ML-For-Beginners.git

README.es.md

Introducción a la clasificación

Examen previo a la lección

¡Esta lección está disponible en R!

Introducción

Hola 'clasificador'

Ejercicio - limpia y equilibra tus datos

Ejercicio - aprendiendo acerca de cocinas

Descubriendo ingredientes

Equilibra el conjunto de datos

🚀Desafío

Examen posterior a la lección

Revisión y autoestudio

Asignación

Comments

Use AWS S3 as storage!

Specify your S3 bucket

Access key (If needed)

Congratulations!

Use Google Cloud Storage!

Specify your Google Storage bucket

Service Account Key

Congratulations!

Use Azure Cloud Storage!

Specify your Azure Storage bucket

Access key (If needed)

Congratulations!

Use any S3 compatible storage!

Specify your S3 bucket

Access key (If needed)

Congratulations!

nirbarazida
/
ML-For-Beginners
mirror of https://github.com/microsoft/ML-For-Beginners.git