Paso a paso en un Proyecto Machine Learning

Ultima actualización: 2/Feb/2025

Esta es una traducción propia al español del Apéndice B (Machine Learning Project Checklist) del libro Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems 2nd Edition de Aurélien Géron con algunos pasos propios agregados o que he encontrado en otros libros o cursos que he realizado.

Este Libro me ha gustado mucho, para mi es el libro practico mas completo sobre machine learning con python que he leído, tiene una excelente estructura, código en python muy bien explicado, ademas muchos tips y sugerencias para realizar un proyecto de machine learning.

El libro esta acompañado por un repositorio con Jupyter Notebooks: https://github.com/ageron/handson-ml2

Índice

Esta lista de verificación puede ser una guía paso a paso para proyectos de Machine Learning.

1. Definir el problema y mirar el panorama general

Definir el objetivo en términos del negocio.
¿Cómo se usará su solución?
¿Cuáles son las soluciones actuales (si las hay)?
¿Cómo se debe enmarcar este problema (supervisado / no supervisado, en línea / fuera de línea, etc.)
¿Cómo se debe medir el desempeño o el rendimiento de la solución?
¿La medida de desempeño está alineada con el objetivo del negocio?
¿Cuál sería el desempeño o rendimiento mínimo necesario para alcanzar el objetivo del negocio?
¿Cuáles son los problemas parecidos? ¿Se puede reutilizar experiencias o herramientas ya creadas?
¿Hay experiencia del problema disponible?
¿Cómo se puede resolver el problema manualmente?
Hacer un listado de los supuestos que hay hasta este momento.
Verificar los supuestos si es posible.

2. Obtener los datos

Nota: automatizar tanto como sea posible este proceso para que pueda obtener fácilmente datos nuevos.

Enumere los datos que necesita y la cantidad que necesita.
Busque y documente dónde se pueden obtener los datos.
Compruebe cuánto espacio de almacenamiento ocuparán los datos.
Verifique las limitaciones legales y obtener autorización a los datos si es necesario.
Obtener autorizaciones de acceso a los datos.
Reservar suficiente espacio de almacenamiento para el proyecto.
Obtener los datos.
Convertir los datos a un formato que se pueda manipular fácilmente (sin cambiar los datos en sí).
Asegurarse de que la información confidencial se elimine o se proteja (por ejemplo, anonimizar los datos).
Verificar el tamaño y el tipo de datos (series de tiempo, muestra de datos, geo posicionamiento, etc.).
Separar un conjunto de datos prueba, dejarlos a un lado y nunca mirarlos.

3. Explorar los datos para obtener información. (EDA: Exploratory Data Analysis)

Nota: intente obtener información de un experto en el tema para estos pasos.

Crear una copia de los datos para explorarlos (muestreándolos a un tamaño manejable si necesario).
Crar un Jupyter Notebook para mantener un registro de la exploración de los datos.
Estudiar cada atributo y sus características (análisis Univariable):
- Nombre
- Tipo de dato (categórico, int / float, acotado / no acotado, texto, estructurado, etc.)
- porcentaje (%) de valores faltantes.
- Ruido y tipo de ruido (estocástico, valores atípicos, errores de redondeo, etc.)
- ¿Son posiblemente útiles para el proyecto?
- Tipo de distribución (gaussiana, uniforme, logarítmica, etc.)
Para los proyectos de aprendizaje supervisado, identifique los atributos objetivo (target).
Visualización de los datos.
Estudiar las correlaciones entre atributos (análisis Bivariable).
Estudiar cómo resolver el problema manualmente.
Identificar las transformaciones que tal vez se puedan aplicar.
Identificar datos adicionales que pueden ser útiles.
Documentar lo que ha aprendido.

Librerías para exploración de Datos

Pandas Profiling https://docs.profiling.ydata.ai/latest/
DataPrep https://dataprep.ai/
Mito https://www.trymito.io/
Dtale https://github.com/man-group/dtale
SweetViz https://github.com/fbdesignpro/sweetviz
AutoViz https://github.com/AutoViML/AutoViz
Bitrook Limpieza de datos https://www.bitrook.com/
dabl Simple autoeda with plot https://dabl.github.io/
Klib https://klib.readthedocs.io/
https://github.com/ml-tooling/best-of-ml-python?tab=readme-ov-file#data-visualization

4. Preparación de los datos

Para exponer mejor los patrones de los datos y usarlos con los algoritmos de Machine Learning.

Notas:

Trabaje en copias de los datos (mantenga intacto el conjunto de datos original).
Escriba funciones para todas las transformaciones de datos que realice, por cinco razones:
- Para que pueda preparar fácilmente los datos la próxima vez que obtenga un conjunto de datos nuevo
- Para que pueda aplicar estas transformaciones en proyectos futuros
- Para limpiar y preparar el set de datos de prueba
- Para limpiar y preparar nuevas instancias de datos una vez que su solución esté activa (producción)
- Para que sea fácil probar diferentes formas de preparación de datos como hiperparámetros

Limpieza de datos:
- Eliminar registros datos duplicados (disminuir el numero de datos)
- Corregir o eliminar valores atípicos (opcional).
- Los valores atípicos pueden separarse del dataset dependiendo del problema del proyecto (por ejemplo, detección de anomalías).
- Completar los valores faltantes (por ejemplo, con cero, media, mediana …) o eliminar las filas (o columnas).
Selección de atributos (Feature Selection) (opcional):
- Descartar los atributos que no proporcionan información útil para el proyecto.
- Eliminar registros duplicados (al eliminar atributos pueden quedar registros iguales)
Ingeniería de atributos (Feature Engineering), cuando sea apropiado:
- Discretizar las atributos continuas.
- Descomponer en partes los atributos (p. Ej., Categóricas, fecha / hora, etc.).
- Agregar transformaciones prometedoras de las atributos, por ejemplo:
  - log(x)
  - sqrt(x)
  - x^2
  - etc
- Aplicar funciones a los datos para agregar nuevos atributos.
Escalado de atributos (Feature Scaling):
- estandarizar
- normalizar

Librerías Feature Enginering

Feature-engine https://feature-engine.trainindata.com/en/latest/
featuretools https://featuretools.alteryx.com/en/stable/

5. Selección de modelos

Notas:

Si se tiene una gran cantidad de datos, es posible que desee hacer un muestreo de los datos para tener conjuntos de entrenamiento más pequeños, de esta forma se pueden entrenar varios modelos diferentes en un tiempo razonable (se debe tener en cuenta que esto penaliza modelos complejos como redes neuronales grandes o Random Forest).
Una vez más, intentar automatizar estos pasos tanto como sea posible.
Utilizar herramientas de Tracking de Experimentos para tener trazabilidad de los modelos y sus desempeños (Ej. MLFlow)

Entrenar muchos modelos rápidos y utilizando parámetros estándar de diferentes categorías (p. Ej., Lineales, Naive Bayes, SVM, Random Forest, redes neuronales, etc.).
Medir y comparar su desempeño.
- Para cada modelo, utilice la validación cruzada (Cross validation) de N subconjuntos y calcule la media y la desviación estándar de la medida de rendimiento en las N evaluaciones.
Analice las variables más significativas para cada algoritmo.
Analice los tipos de errores que cometen los modelos.
- ¿Qué datos habría utilizado un humano para evitar estos errores?
Realizar rápidamente una selección de atributos e ingeniería de atributos (Feature selection, Feature Engineering).
Realice una o dos iteraciones rápidas más de los cinco pasos anteriores.
Hacer una lista corta de los tres a cinco modelos más prometedores, prefiriendo seleccionar modelos que cometan diferentes tipos de errores (diversidad de los errores).

6. Afinar los modelos

Notas:

Se deberá utilizar la mayor cantidad de datos posible para este paso, especialmente a medida que avanza hacia el final del ajuste fino del modelo.
Como siempre, automatizar lo que se pueda.

Ajuste los hiperparámetros (hyperparameter tunning) mediante validación cruzada (cross validation).
- Tratar las elecciones de transformación de datos como hiperparámetros, especialmente cuando no esta seguro de ellos (por ejemplo, ¿debería reemplazar los valores faltantes con cero o con el valor medio? ¿O simplemente dejar eliminar las filas?).
- A menos que haya muy pocos valores de hiperparámetros para explorar, prefiera la búsqueda aleatoria (random search) a la búsqueda de cuadrícula (grid search). Si el entrenamiento es muy largo, es posible que prefiera un enfoque de optimización bayesiano (por ejemplo, utilizando procesos previos gaussianos, como lo describen Jasper Snoek, Hugo Larochelle y Ryan Adams¹).
Pruebe los métodos de Ensamble (ensemble methods). La combinación de sus mejores modelos a menudo tendrá un mejor rendimiento que se ejecutan individualmente (hay mejor desempeño si hay diversidad de errores entre los modelos).
Una vez que esté seguro de su modelo final, mida su rendimiento en el conjunto de prueba (test set, separado al inicio) para estimar el error de generalización.

No modifique su modelo después de medir el error de generalización: simplemente comenzaría a sobre ajustar el conjunto de prueba.

Librerías para Hiper parametrización de Modelos

Ray-Tune https://docs.ray.io/en/latest/tune/index.html
optuna https://optuna.readthedocs.io/en/stable/
hyperopt http://hyperopt.github.io/hyperopt/
https://github.com/ml-tooling/best-of-ml-python?tab=readme-ov-file#hyperparameter-optimization--automl

7. Interpretabilidad del modelo

Interpretar el modelo obtenido e identificar los errores del mismo

¿Cuáles características (Features) son mas importantes?
¿Cuanto en la contribución de cada característica (Feature) a la predicción?
¿Cuáles son las consecuencias de las malas predicciones?
¿Qué tipo de errores comete el modelo?
¿Cómo se pueden monitorear los errores?
¿A qué se deben los errores?
- outliers?
- Clase desbalanceada?
- ¿Errores en el ingreso de datos?
- etc

Librerías para Interpretabilidad del modelo

Shap https://github.com/slundberg/shap
interpret https://github.com/interpretml/interpret
explainerdashboard https://explainerdashboard.readthedocs.io/
PiML https://github.com/SelfExplainML/PiML-Toolbox
Yellowbrick https://www.scikit-yb.org/en/latest/
Alibi Explain https://docs.seldon.io/projects/alibi/en/stable/
https://github.com/ml-tooling/best-of-ml-python?tab=readme-ov-file#model-interpretability

8. Presentación de la solución

Documentar lo que ha hecho.
Crear una buena presentación.
- Asegúrese de resaltar el panorama general del proyecto o del problema primero.
Explicar por qué la solución encontrada logra el objetivo buscado.
No olvidar presentar puntos interesantes que se notaron en el camino.
- Describir qué funcionó y qué no.
- Enumerar los supuestos y las limitaciones del sistema.
Asegurarse de que los hallazgos clave se comuniquen a través de hermosas visualizaciones o declaraciones fáciles de recordar (por ejemplo, “el ingreso medio es el predictor número uno de los precios de la vivienda”).

9. Desplegar, monitorear y mantener el sistema

Preparar la solución para producción (conectar las entradas de datos de producción, escribir pruebas unitarias (unit test), etc).
Escribir código de monitoreo para verificar el rendimiento en tiempo real del sistema a intervalos regulares y activar alertas cuando se caiga o falle.
- Tener cuidado con la lenta degradación: los modelos tienden a “pudrirse” a medida que los datos evolucionan, el modelo va perdiendo validez en el tiempo.
- La medición del rendimiento puede requerir supervision humana (por ejemplo, a través de un servicio de crowdsourcing).
- Controlar la calidad de los datos de entrada (por ejemplo, Un sensor que funciona mal y que envía valores aleatorios, o la salida de datos de otro equipo se vuelve obsoleta). Esto es particularmente importante para los sistemas de aprendizaje en línea (online learning).
Vuelva a entrenar sus modelos de forma regular con datos nuevos (automatizar lo más posible), esto se llama Continuous Training and Continuous Deployment (CT/CD).
El area de automatización del proceso se llama MLOps.

librerías MLOps, Monitoreo y Testing

Librerías Experiment tracking

MlFLow https://mlflow.org/
Weights & Biases https://github.com/wandb/wandb
Dvc Experiment Management https://dvc.org/doc/user-guide/experiment-management
Metaflow https://github.com/Netflix/metaflow
https://github.com/ml-tooling/best-of-ml-python?tab=readme-ov-file#workflow--experiment-tracking

Librerías de Monitoreo y Test Datos y Modelos

GreatExpectations Data quality https://greatexpectations.io/
Deepchecks Test Suites for ML Models & Data https://deepchecks.com/
evidentlyAI model monitoring https://evidentlyai.com/

librerías MLOps y Orquestadores

Kedro Modular, reproducible and maintainable data science code https://kedro.org/
ZenMl MLOps framework used to create production-ready ML pipelines https://zenml.io/
Dvc Version Control System for Machine Learning Projects https://dvc.org/
MlFLow Platform for the machine learning lifecycle https://mlflow.org/
KubeFlow Machine Learning Toolkit for Kubernetes https://www.kubeflow.org/
MetaFlow Build and manage real-life data science projects https://metaflow.org/
MLRun Machine-learning applications to production https://www.mlrun.org/

librerías Testing código

Pytest Pruebas unitarias https://docs.pytest.org/
Coverage Cobertura de las pruebas unitarias https://coverage.readthedocs.io/

Referencias

“Practical Bayesian Optimization of Machine Learning Algorithms,” J. Snoek, H. Larochelle, R. Adams (2012) ↩︎

Paso a paso en un Proyecto Machine Learning

1. Definir el problema y mirar el panorama general

2. Obtener los datos

3. Explorar los datos para obtener información. (EDA: Exploratory Data Analysis)

Librerías para exploración de Datos

4. Preparación de los datos

Librerías Feature Enginering

5. Selección de modelos

Librerías de Modelos de Machine Learning

Librerías de AutoML (Auto Machine Learning)

Librerías selección de Modelos Simples (No Producción)

Librerías para Deep Learning

6. Afinar los modelos

Librerías para Hiper parametrización de Modelos

7. Interpretabilidad del modelo

Librerías para Interpretabilidad del modelo

8. Presentación de la solución

9. Desplegar, monitorear y mantener el sistema

librerías MLOps, Monitoreo y Testing

Librerías Experiment tracking

Librerías de Monitoreo y Test Datos y Modelos

librerías MLOps y Orquestadores

librerías Testing código

Referencias