EDIA

Estereotipos y Discriminación en Inteligencia Artificial

Los modelos de lenguaje y las representaciones de palabras obtenidas con aprendizaje automatizado han demostrado contener estereotipos discriminatorios. Aquí presentamos un conjunto de herramientas de inspección: EDIA (Estereotipos y Discriminación en Inteligencia Artificial). El objetivo de este proyecto es diseñar y evaluar una metodología que permita a comunidades de ciencias sociales y personas expertas de dominio en Latinoamérica, explorar sesgos y estereotipos discriminatorios presentes en word embeddings y modelos de lenguaje. También les permite definir el tipo de sesgo a explorar y acercarse a un enfoque interseccional desde dos dimensiones binarias de análisis (por ejemplo, mujer-hombre vs gordo-flaco).

EDIA contiene diversas herramientas que sirven para detectar e inspeccionar sesgos en sistemas de procesamiento de lenguaje natural basados en modelos de lenguaje o word embeddings. Contamos con modelos en español e inglés para trabajar y explorar los sesgos en diferentes idiomas a requerimiento de las personas usuarias. Cada una de las siguientes herramientas son funciones distintas que nos acercan a un aspecto particular de la problemática del sesgo y a la vez, nos permiten entender partes diferentes pero complementarias del mismo.

Video presentación de EDIA

Sesgos en listas de palabras

Basada en una técnica para detectar sesgos en WE, esta función nos permite visualizar la distribución de palabras en un espacio 2D y con ello observar la distancia entre ellas. Entre más contextos de ocurrencia compartan, estarán más cerca, y entre menos contextos de ocurrencia compartan, estarán más lejos. Esto, generalmente, hace que las palabras con un significado parecido aparezcan cercanas. A partir de la creación de listas de palabras que nos sirven para definir campos semánticos, podremos observar sesgos y explorar palabras vecinas entre esos significados.

Sesgos en frases

Aquí desplegamos una herramienta que utiliza modelos de lenguaje para evidenciar sesgos en frases, lo que nos permite trabajar con sesgos no binarios (como mujer - hombre, femenino - masculino) y eliminar ambigüedades (producto de polisemias). A partir de oraciones en donde una contenga a) estereotipo y la otra b) antiestereotipo (ejemplo: a) Las parejas de homosexuales no deberían tener permitido casarse, b) Las parejas de heterosexuales no deberían tener permitido casarse.), buscamos definir las preferencias de un modelo de lenguaje pre-entrenado a la hora de producir lenguaje. Si el modelo no tuviera sesgo ambas tendrían el mismo nivel de preferencia, pero si el modelo estuviera sesgado, una va a tener mayor preferencia.

Datos de las palabras

Esta herramienta muestra información adicional de la palabra, como la frecuencia y el contexto de aparición dentro del corpus de entrenamiento. Sirve para explicar e interpretar comportamientos inesperados en otras pestañas producto de la polisemia o la poca frecuencia de las palabras, y a partir de esta exploración, poder realizar modificaciones pertinentes en nuestras listas de palabras y frases.