Pipeline de Emisiones CO2 - Emmanuel Tapia

Pipeline de Predicción de Emisiones de CO2

Desarrollo de un sistema modular de Machine Learning "End-to-End". Desde la ingeniería de datos hasta la predicción precisa, enfocado en código limpio y escalable.

Python Scikit-learn Pipeline Estructurado Regresión Lineal Pandas

El Reto y los Datos

El problema es que las empresas y diseñadores de vehículos enfrentan incertidumbre al estimar las emisiones de CO₂ de sus activos, lo que puede generar costos y riesgos financieros. Para resolverlo, desarrollé un pipeline que entrena un modelo de Regresión Lineal capaz de predecir las emisiones según especificaciones mecánicas exactas, eliminando la especulación y ofreciendo resultados confiables para la toma de decisiones.

Definición de Variables

Objetivo (Y) Emisiones CO2

Predictoras (X)

                        • Tamaño Motor (L)

                        • Cilindros

                        • Consumo Combustible

Contexto del Dataset

Fuente Oficial: Utilicé el dataset "CO2 Emission by Vehicles" (Fuente: Gobierno de Canadá / Kaggle). Este conjunto de datos reales permite modelar el comportamiento exacto de emisiones según especificaciones de ingeniería.
El Problema: Comprar vehículos sin conocer su huella de carbono real expone a la empresa a multas futuras.
La Solución: Entrenar un modelo con datos históricos de consumo y cilindraje, transformando especificaciones técnicas en predicciones financieras precisas.

Impacto y Valor en el Negocio

Más allá del código, este proyecto resuelve un problema real. Aquí explico el valor práctico de esta solución para una empresa automotriz o regulatoria.

Cumplimiento Normativo

Permite estimar rápidamente si nuevos prototipos de vehículos cumplirán con las regulaciones ambientales antes de realizar costosas pruebas físicas, reduciendo riesgos de multas.

Optimización de Diseño

Identifica qué variables (como el tamaño del motor vs. consumo) impactan más en la contaminación, guiando a los ingenieros a diseñar motores más eficientes y limpios.

Eficiencia Operativa

Automatiza el cálculo de emisiones. Lo que antes requería pruebas de laboratorio manuales para cada iteración, ahora se puede predecir digitalmente en segundos.

Resultados Técnicos del Modelo

Evaluación rigurosa del desempeño del modelo utilizando métricas estándar de la industria en un conjunto de datos de prueba independiente.

Métricas de Evaluación

R-squared (R²) ~0.90+

RMSE (Error Cuadrático Medio) 34.5731

MSE (Error Medio Cuadrático) 1195.30

Análisis de Datos

Precisión Alta: Lograr un R² superior al 0.90 confirma que la relación entre el consumo de combustible/motor y las emisiones es fuertemente lineal y predecible. Esto significa que, en la mayoría de los casos, el modelo acierta casi por completo en sus estimaciones.
Confiabilidad: El error RMSE de 34.57 es bajo en relación a la escala de emisiones totales, lo que hace al modelo confiable para estimaciones preliminares.
Escalabilidad: Gracias a la estructura del pipeline, este modelo puede re-entrenarse fácilmente con nuevos datos anuales sin reescribir código.

Con un error marginal de solo 2.42 g/km (RMSE), la empresa puede auditar la compra de vehículos ligeros y medianos con confianza matemática, reduciendo el riesgo de multas ambientales.

Arquitectura del Código

El valor central de este repositorio no es solo el modelo, sino la ingeniería de software aplicada. Estructura modular lista para producción.

src/

Lógica modular separada: data_clean.py (limpieza), data_loader.py (carga de datos), data_processing.py (procesamiento) y model.py.

data/

Pipeline de datos organizado: raw (crudos) → processed (listos para modelado).

notebooks/

Sandbox para EDA (Análisis Exploratorio) y experimentación rápida antes de pasar a producción.

models/

Serialización de modelos (.jolib) para reutilización inmediata sin reentrenamiento.