Entre el 2 y el 6 de junio de 2025 se llevó a cabo en la Universidad Nacional de Córdoba (UNC) el curso intensivo “Evaluación responsable de sistemas de aprendizaje automático”, organizado por Luciana Benotti profesora de la Facultad de Matemática, Astronomía, Física y Computación (FAMAF-UNC) y líder del equipo de ética en IA de Fundación Vía Libre. Este curso se dictó en el marco de profesora visitante de FAMAF-UNC.
En este artículo encontrarás al final, los videos completos de las clases, las diapositivas y los repositorios con los recursos trabajados.
El curso estuvo a cargo de Luciana Ferrer, investigadora independiente en el Instituto de Ciencias de la Computación (ICC), UBA-CONICET. Luciana completó su doctorado en Ingeniería Electrónica en Stanford University, California, USA, en 2009, y su grado de Ingeniería Electrónica en la Universidad de Buenos Aires en 2001. Su trabajo se centra en el uso del aprendizaje de máquinas aplicado al procesamiento del habla y el lenguaje. Lidera el grupo de procesamiento del habla del ICC, el cual es parte del Laboratorio de Inteligencia Artificial Aplicada (LIAA), trabajando en temas como puntuación de la pronunciación para aprendizaje de idiomas, reconocimiento de estados mentales, detección de enfermedades neurológicas a partir del habla y cuantificación de la incerteza para modelos de lenguaje. Ha publicado más de 170 trabajos científicos que recibieron más de 7700 citas.
Breve introducción al curso
“El protocolo de evaluación es el componente más importante del proceso de desarrollo de un sistema de aprendizaje automático. Si el protocolo es incorrecto o no refleja las necesidades de la aplicación de interés, las decisiones de desarrollo pueden ser subóptimas y la predicción del rendimiento del sistema final puede ser incorrecta”.
En este espacio de formación técnica se abordaron aspectos esenciales del protocolo de evaluación de sistemas de IA, como el manejo de datos, la elección de métricas de rendimiento y la significancia estadística. Aunque parte del contenido que se trabajó aplica a cualquier tipo de sistema de aprendizaje automático, el énfasis principal del curso fueron las métricas de evaluación, concentrándose en la tarea de clasificación. Se trabajó especialmente con herramientas clave como las proper scoring rules (PSR), una familia de métricas diseñadas hace décadas para la evaluación de sistemas de clasificación probabilísticos, que son los que toman sus decisiones en base a probabilidades a posteriori de las clases—los más comunes en la actualidad. Se describieron en detalle dos casos particulares de PSRs que resultan en el riesgo de Bayes y la cross-entropía. Si bien ambas métricas están ampliamente estudiadas en la literatura estadística, son poco utilizadas para evaluar el rendimiento de sistemas en el campo del aprendizaje automático. Se describió también el costo esperado, una generalización de la tasa de error, que coincide con el riesgo de Bayes cuando las decisiones se toman usando teoría de decisión de Bayes. Durante el curso, se argumentó por qué las PSRs y el costo esperado constituyen las únicas herramientas necesarias para evaluar sistemas de clasificación y que las alternativas comúnmente usadas en la literatura, como el F-score para evaluar decisiones categóricas, o el expected calibration error para evaluar probabilidades a posteriori, son insuficientes o engañosas.
El equipo de Fundación Vía Libre además de organizar, participó activamente de esta capacitación como parte de su proceso de formación continua. Los contenidos trabajados se incorporarán a nuestras propuestas pedagógicas para el abordaje crítico de la inteligencia artificial en contextos educativos.
Repetí, pausá y mirá de nuevo
clase por clase
A continuación, compartimos los videos completos del curso, junto con las presentaciones utilizadas en cada clase. El contenido se organiza en cinco jornadas, cada una con dos bloques.
Lunes 2 de junio
Martes 3 de junio
Miércoles 4 de junio
Jueves 5 de junio
Viernes 6 de junio
Artículos asociados
Este curso se basó principalmente en los siguientes artículos:
- L. Ferrer, No Need for Ad-hoc Substitutes: The Expected Cost is a Principled All-purpose Classification Metric. TMLR, 2025.
- L. Ferrer and D. Ramos, Evaluating Posterior Probabilities: Decision Theory, Proper Scoring Rules, and Calibration. TMLR, 2025.
Repositorios mencionados durante las clases
- Cálculo de costo esperado y decisiones Bayesianas https://github.com/luferrer/expected_cost
- Métricas y modelos de calibración basados en PSRs https://github.com/luferrer/psr-calibration
- Cálculo y ploteo de intervalos de confianza con bootstraping https://github.com/luferrer/ConfidenceIntervals
- Tutorial sobre calibración https://github.com/luferrer/CalibrationTutorial
* Fe de erratas
En las presentaciones utilizadas durante el curso, la notación de algunas variables no coincide con la que se emplea en los artículos citados. En las diapositivas, K representa las muestras y N (o a veces C) las clases, mientras que en los artículos esa notación está invertida. Este cambio fue solicitado por un revisor durante el proceso de publicación del primer paper, y no fue actualizado a tiempo en el material del curso. Agradecemos la comprensión.