La mayoría de los recursos para evaluar los sesgos sociales en los modelos de lenguaje grandes se desarrollan sin la participación de las comunidades afectadas por dichos sesgos y rara vez incluyen enfoques participativos.
Presentamos HESEIA, un conjunto de datos de 46 499 frases creado en un curso de desarrollo profesional. En el curso participaron 370 profesores de secundaria y 5370 alumnos de 189 escuelas latinoamericanas. A diferencia de los puntos de referencia existentes, HESEIA recoge sesgos interseccionales en múltiples ejes demográficos y materias escolares. Refleja los contextos locales a través de la experiencia vivida y los conocimientos pedagógicos de los educadores. Los profesores utilizaron pares mínimos para crear oraciones que expresaran estereotipos relevantes para sus materias escolares y comunidades. Mostramos la diversidad del conjunto de datos en términos de ejes demográficos representados y también en términos de las áreas de conocimiento incluidas. Demostramos que el conjunto de datos contiene más estereotipos no reconocidos por los LLM actuales que los conjuntos de datos anteriores.
HESEIA está disponible para apoyar las evaluaciones de sesgos basadas en las comunidades educativas.
Publicado en ACL Anthology. Noviembre 2025.
