Proyecto practico de Ciencia de Datos con python

Ultima actualización 21 / Nov / 2024

Invítame a un Café

Propósito del Proyecto

Realizar ciencia de datos conlleva el conocimiento de diferentes areas (Estadística, Matemáticas, Programación, visualización, Machine Learning, etc ) , pero con práctica, pronto se puede empezar a comprender las diversas nociones y terminologías del tema. La mejor manera de ganar más experiencia en la Ciencia de Datos, aparte de revisar la literatura, es realizar algunos proyectos prácticos que involucren la aplicación de técnicas de análisis de datos y Machine Learning a conjuntos de datos para apropiarse de una metodología para realizar los procesos de:

  • Extracción de datos
  • Limpieza de datos
  • Análisis exploratorio
  • Ingeniería de características (Feature Engineering)
  • Creación de Modelo Base (baseline)
  • Selección de Modelos
    • Cross Validation
    • Evaluación de modelos

El propósito de este proyecto es proporcionar un ejemplo de una metodología o guía práctica para desarrollar un proyecto de ciencia de datos con Python, desde la extracción, análisis y preparación de datos hasta la evaluación y selección de modelos de Machine Learning. A lo largo de este proyecto, utilizaremos las librerías como pandas, matplotlib, plotly, seaborn y scikit-learn para realizar tareas de limpieza de datos, análisis exploratorio, ingeniería de características (Feature Engineering) y modelado predictivo.

Lo mas importante del proyecto es la metodología para realizar los procesos de limpieza de datos, análisis exploratorio, ingeniería de características, selección de modelos y evaluación que luego pueden ser aplicados a cualquier conjunto de datos.

El conjunto de datos

El hundimiento del RMS Titanic en 1912 sigue siendo uno de los desastres marítimos más grandes de la historia, que provocó una importante pérdida de vidas. Más de 1500 pasajeros y tripulantes fallecieron esa fatídica noche. Comprender los factores que contribuyeron a la supervivencia puede proporcionar información valiosa sobre los protocolos de seguridad y la dinámica social durante las crisis.

El conjunto de datos que utilizaremos en este proyecto es el famoso conjunto de datos del Titanic, que se puede descargar desde la plataforma de competencia de Kaggle. Este conjunto de datos contiene información sobre 891 pasajeros a bordo del Titanic, incluyendo detalles como el nombre, la edad, el sexo, la clase en la que viajaban, el número de hermanos y cónyuges a bordo, el número de padres e hijos a bordo, el precio del boleto, el puerto de embarque y si sobrevivieron o no. Utilizando algoritmos de clasificación, se pretende crear un modelo predictivo de clasificación supervisada que permita estimar la supervivencia de cada individuo a bordo del Titanic.

Contenido

  • Guía práctica para desarrollar un proyecto de ciencia de datos con Python, desde la extracción, análisis y preparación de datos hasta la evaluación y selección de modelos de Machine Learning. (pandas y scikit-learn)

  • 1. Descarga de datos

    Descarga de datos y selección de variables.

  • 2. Exploración de datos

    Exploracion de datos.

  • 3. Análisis de datos (EDA)

    Análisis Exploratorio de los datos.

  • 4. Feature Engineering

    En este capítulo se abordará el proceso de ingeniería de características (Feature Engineering), que es el proceso de seleccionar y transformar variables para crear un modelo predictivo.

  • 5. Modelo Base

    Modelos base para luego comparar con modelos más complejos.

  • 6. Selección de Modelos

    Selección de Modelo de machine learning.