Ultima actualización 21 / Nov / 2024
Propósito del Proyecto
Realizar ciencia de datos conlleva el conocimiento de diferentes areas (Estadística, Matemáticas, Programación, visualización, Machine Learning, etc ) , pero con práctica, pronto se puede empezar a comprender las diversas nociones y terminologías del tema. La mejor manera de ganar más experiencia en la Ciencia de Datos, aparte de revisar la literatura, es realizar algunos proyectos prácticos que involucren la aplicación de técnicas de análisis de datos y Machine Learning a conjuntos de datos para apropiarse de una metodología para realizar los procesos de:
- Extracción de datos
- Limpieza de datos
- Análisis exploratorio
- Ingeniería de características (Feature Engineering)
- Creación de Modelo Base (baseline)
- Selección de Modelos
- Cross Validation
- Evaluación de modelos
El propósito de este proyecto es proporcionar un ejemplo de una metodología o guía práctica para desarrollar un proyecto de ciencia de datos con Python, desde la extracción, análisis y preparación de datos hasta la evaluación y selección de modelos de Machine Learning. A lo largo de este proyecto, utilizaremos las librerías como pandas
, matplotlib
, plotly
, seaborn
y scikit-learn
para realizar tareas de limpieza de datos, análisis exploratorio, ingeniería de características (Feature Engineering) y modelado predictivo.
El conjunto de datos
El hundimiento del RMS Titanic en 1912 sigue siendo uno de los desastres marítimos más grandes de la historia, que provocó una importante pérdida de vidas. Más de 1500 pasajeros y tripulantes fallecieron esa fatídica noche. Comprender los factores que contribuyeron a la supervivencia puede proporcionar información valiosa sobre los protocolos de seguridad y la dinámica social durante las crisis.
El conjunto de datos que utilizaremos en este proyecto es el famoso conjunto de datos del Titanic, que se puede descargar desde la plataforma de competencia de Kaggle. Este conjunto de datos contiene información sobre 891 pasajeros a bordo del Titanic, incluyendo detalles como el nombre, la edad, el sexo, la clase en la que viajaban, el número de hermanos y cónyuges a bordo, el número de padres e hijos a bordo, el precio del boleto, el puerto de embarque y si sobrevivieron o no. Utilizando algoritmos de clasificación, se pretende crear un modelo predictivo de clasificación supervisada que permita estimar la supervivencia de cada individuo a bordo del Titanic.
Contenido
Guía práctica para desarrollar un proyecto de ciencia de datos con Python, desde la extracción, análisis y preparación de datos hasta la evaluación y selección de modelos de Machine Learning. (pandas y scikit-learn)
1. Descarga de datos
Descarga de datos y selección de variables.
2. Exploración de datos
Exploracion de datos.
3. Análisis de datos (EDA)
Análisis Exploratorio de los datos.
4. Feature Engineering
En este capítulo se abordará el proceso de ingeniería de características (Feature Engineering), que es el proceso de seleccionar y transformar variables para crear un modelo predictivo.
5. Modelo Base
Modelos base para luego comparar con modelos más complejos.
6. Selección de Modelos
Selección de Modelo de machine learning.