Desarrollo de un sistema modular de Machine Learning "End-to-End". Desde la ingeniería de datos hasta la predicción precisa, enfocado en código limpio y escalable.
El problema es que las empresas y diseñadores de vehículos enfrentan incertidumbre al estimar las emisiones de CO₂ de sus activos, lo que puede generar costos y riesgos financieros. Para resolverlo, desarrollé un pipeline que entrena un modelo de Regresión Lineal capaz de predecir las emisiones según especificaciones mecánicas exactas, eliminando la especulación y ofreciendo resultados confiables para la toma de decisiones.
Más allá del código, este proyecto resuelve un problema real. Aquí explico el valor práctico de esta solución para una empresa automotriz o regulatoria.
Permite estimar rápidamente si nuevos prototipos de vehículos cumplirán con las regulaciones ambientales antes de realizar costosas pruebas físicas, reduciendo riesgos de multas.
Identifica qué variables (como el tamaño del motor vs. consumo) impactan más en la contaminación, guiando a los ingenieros a diseñar motores más eficientes y limpios.
Automatiza el cálculo de emisiones. Lo que antes requería pruebas de laboratorio manuales para cada iteración, ahora se puede predecir digitalmente en segundos.
Evaluación rigurosa del desempeño del modelo utilizando métricas estándar de la industria en un conjunto de datos de prueba independiente.
Con un error marginal de solo 2.42 g/km (RMSE), la empresa puede auditar la compra de vehículos ligeros y medianos con confianza matemática, reduciendo el riesgo de multas ambientales.
El valor central de este repositorio no es solo el modelo, sino la ingeniería de software aplicada. Estructura modular lista para producción.
Lógica modular separada: data_clean.py (limpieza), data_loader.py (carga de datos), data_processing.py (procesamiento) y model.py.
Pipeline de datos organizado: raw (crudos) → processed (listos para modelado).
Sandbox para EDA (Análisis Exploratorio) y experimentación rápida antes de pasar a producción.
Serialización de modelos (.jolib) para reutilización inmediata sin reentrenamiento.