Investigador / Científico de Datos
cminutti@data-fusionlab.com
Soy investigador en inteligencia artificial y ciencia de datos. Cuento con una licenciatura en Estadística por la Universidad Autónoma Chapingo, una maestría en Matemáticas y un doctorado en Ciencias de la Computación por la Universidad Nacional Autónoma de México, donde además realicé una estancia de investigación en la Universidad de Waterloo, Canadá, a través del programa Emerging Leaders in the Americas.
Soy miembro del Sistema Nacional de Investigadores. Mi trabajo ha sido reconocido a nivel nacional e internacional, incluyendo el segundo lugar a la mejor tesis de maestría por la Asociación Mexicana de Estadística, el primer lugar en el Best Paper Award de MICAI 2023 y el tercer lugar en el Premio AFIRME–UNAM 2024. También he obtenido premios en competencias internacionales de ciencia de datos e inteligencia artificial, como el primer lugar en la International Joint Conference on Neural Networks (IJCNN 2025) y el segundo lugar en el Iberian Language Evaluation Forum (IberLEF 2025).
He realizado estancias posdoctorales tanto en el Instituto Politécnico Nacional como en la Universidad Nacional Autónoma de México. Asimismo, he trabajado como consultor en ciencia de datos y como asociado de investigación en iniciativas colaborativas de inteligencia artificial.
Este estudio investiga los efectos combinados de la contaminación del aire y los factores socioeconómicos sobre la incidencia y gravedad de enfermedades, abordando vacíos en investigaciones previas que a menudo analizaban estos factores por separado. Utilizando datos de 86,170 hospitalizaciones en la Ciudad de México (2015–2019), empleamos métodos estadísticos multivariados (ACP y análisis factorial) para construir medidas compuestas de estatus social y económico y agrupar contaminantes correlacionados. Modelos de regresión logística y binomial negativa evaluaron sus asociaciones con el riesgo y frecuencia de hospitalización. Los resultados mostraron que el estatus económico influyó significativamente en las complicaciones de diabetes, mientras que los factores sociales afectaron enfermedades relacionadas con la atención prenatal y la hipertensión. El grupo PM10–PM2.5–CO aumentó la incidencia de asma, influenza y epilepsia, mientras que NO2–NOx impactó la gravedad de complicaciones de diabetes e influenza.
La explicabilidad y mitigación de sesgos son aspectos cruciales de los modelos de aprendizaje profundo (DL) para el análisis de imágenes médicas. La IA generativa, particularmente los autoencoders, puede mejorar la explicabilidad analizando el espacio latente para identificar y controlar variables que contribuyen a sesgos. Al manipular el espacio latente, los sesgos pueden mitigarse en la capa de clasificación. Además, el espacio latente puede visualizarse para proporcionar una comprensión más intuitiva del proceso de toma de decisiones del modelo. En nuestro trabajo, demostramos cómo el enfoque propuesto mejora la explicabilidad del proceso de toma de decisiones, superando las capacidades de métodos tradicionales como Grad-Cam. Nuestro enfoque identifica y mitiga sesgos de manera directa, sin necesidad de reentrenamiento del modelo o modificación del conjunto de datos.
En este artículo presentamos PumaMedNet-CXR, una IA generativa diseñada para la clasificación de imágenes médicas, con énfasis específico en imágenes de rayos X de tórax (CXR). El modelo corrige eficazmente defectos comunes en imágenes CXR, ofrece mejor explicabilidad, permitiendo una comprensión más profunda de su proceso de toma de decisiones. Al analizar su espacio latente, podemos identificar y mitigar sesgos, asegurando un modelo más confiable y transparente. Notablemente, PumaMedNet-CXR logra un rendimiento comparable al de modelos preentrenados más grandes mediante aprendizaje por transferencia, convirtiéndolo en una herramienta prometedora para el análisis de imágenes médicas.
La contaminación del aire se ha vinculado con mortalidad prematura y reducción de la esperanza de vida, con efectos agudos y crónicos en la salud humana. Estos efectos pueden ser difíciles de medir debido a posibles interacciones y relaciones no lineales con otras variables como edad, peso, sexo y estatus socioeconómico. Las relaciones multidimensionales son difíciles de modelar usando métodos estadísticos convencionales. Sin embargo, las técnicas modernas de aprendizaje automático han sido bastante exitosas en este dominio. En este estudio, se utilizan árboles de regresión de gradient boosting para predecir la severidad/mortalidad de las principales causas de hospitalización en la Ciudad de México para 91,964 pacientes durante los años 2015–2020 para medir el impacto de diferentes contaminantes del aire.
En las grandes ciudades, la salud de los habitantes y las concentraciones de partículas menores a 10 y 2.5 μm así como el ozono están relacionados, haciendo útil su predicción para el gobierno y los ciudadanos. La Ciudad de México cuenta con un sistema de pronóstico de calidad del aire, que presenta un pronóstico por contaminante a nivel horario y por zona geográfica, pero solo es válido para las próximas 24 horas.
Para generar predicciones a un plazo más largo, se necesitan métodos sofisticados, pero técnicas altamente automatizadas como el aprendizaje profundo requieren una gran cantidad de datos, que no están disponibles para este problema. Por lo tanto, se crea un conjunto de variables predictoras para alimentar y probar diferentes métodos de Aprendizaje Automático (AA), y determinar qué características de estos métodos son esenciales para la predicción de diferentes concentraciones de contaminantes.
En este trabajo presentamos un modelo híbrido de predicción utilizando diferentes métodos estadísticos y técnicas de AA, que permiten estimar la concentración de los tres principales contaminantes del aire de la Ciudad de México con dos semanas de anticipación. Se presentan y comparan los resultados de los diferentes modelos, siendo el modelo híbrido el que mejor predice los casos extremos.