Sesgos de género en los algoritmos: un círculo perverso de discriminación en línea y en la vida real
Diario.es.- Un algoritmo de inteligencia artificial (IA) aprendió a asociar mujeres con imágenes de cocinas, basado en decenas de miles de fotografías de internet, porque aparecen más mujeres que hombres fotografiadas en cocinas en la Web. Mientras aprendía, el algoritmo multiplicó el sesgo presente en el conjunto de datos en el que se basaba, amplificando (no simplemente replicando) la asociación sesgada entre cocinas y mujeres. Este es uno de varios estudios de caso que están demostrado cómo los sistemas de aprendizaje automático –conocidos como machine learning (o ML)— incorporan y aumentan los sesgos de género.
La asociación de mujeres con cocinas y cocinas con el trabajo doméstico, típicamente vulnerable, es problemática. Esto se debe a los estereotipos. Difundidas por plataformas digitales, estas imágenes estereotipadas son vistas por cualquier persona con acceso a contenido en línea, perpetuando e intensificando los papeles de género desequilibrados.
ML es un sistema automático que contiene paquetes de algoritmos que, alimentados por macro datos (incluidos datos audiovisuales como fotos), hacen posible la llamada inteligencia artificial (IA). Gracias a las técnicas estadísticas, estos algoritmos aprenden, es decir, utilizan datos para perfeccionar tareas para las que no habían sido programados. “Estas capacidades de aprendizaje otorgan a los algoritmos cierto grado de autonomía”, lo que hace que las tareas de IA sean “difíciles de predecir”, lo que obstaculiza “la identificación y reparación de desafíos éticos en el diseño y operación de algoritmos” dice un grupo de investigadores de la Universidad de Oxford en un artículo sobre la ética de los algoritmos.
Sesgos basados en imágenes y sonido
Uno de los mayores desafíos son los efectos adversos que estamos viviendo las mujeres como resultado de la decisión algorítmica. Especialmente relevantes son datos audiovisuales, incluidas las imágenes y el sonido del cine, los videos musicales, las plataformas de intercambio social y la publicidad.
La atención al sesgo de género en los textos está bien establecida (por ejemplo, en este estudio). Sin embargo, hay relativamente menos estudios sobre los sesgos en imágenes y sonido pesar de su creciente relevancia dado el masivo aumento global de datos audiovisuales. A medida que el contenido en línea se vuelve más visual y el aprendizaje automático, omnipresente, los datos y los sesgos algorítmicos vinculados con las imágenes y sonido son cada vez más importantes.
La imagen de las mujeres es especialmente notable. Múltiples estudios hablan de cómo las mujeres y las niñas han sido estereotipadas y sexualizadas a través de sus imágenes (por ejemplo, este). Entretanto, la cosificación de las mujeres en algunos medios de comunicación puede generar problemas psicológicos, discriminación y violencia de género. Además, la tergiversación de la violencia de género –por ejemplo, en algunos en videojuegos y publicidad— que retrata el abuso como algo aceptable, irrelevante o absurdo es un fenómeno bien estudiado.
El surgimiento de las plataformas como modelo económico dominante lo cambia todo. El machine learning hace posibles todas las interacciones que tenemos con plataformas como Amazon, Facebook, Google y Netflix. La IA decide qué ofrecer mediante la personalización de los resultados. La desigualdad en la publicidad, el cine, los videos musicales y la televisión cobra una nueva vida cuando las plataformas toman decisiones algorítmicas basadas en estos contenidos, lo que potencialmente multiplica los prejuicios y establece un círculo vicioso. El problema es que los sesgos algorítmicos se encuentran en todas las plataformas.
Operando en la oscuridad, esta tecnología puede ser un amplificador de las desigualdades, ya que estos sistemas se emplean cada vez más para determinar, por ejemplo, quién es elegible para recibir atención médica, préstamos, ofertas de trabajo, sentencias y ayudas. La discriminación de género algorítmica, además, puede integrar otras dimensiones, incluidas el color de la piel, el estado civil, el código postal y los ingresos.
Entendiendo el sesgo algorítmico
Los sesgos algorítmicos de las plataformas no son necesariamente injustos. El sesgo en ML es una condición previa para la acción inteligente, explica Bishop. Sin embargo, puede ser problemático cuando “se deriva de aspectos de una cultura que se sabe que conduce a un comportamiento dañino” replican Caliskan, Bryson y Narayanan.
Un obstáculo para abordar los prejuicios es que la decisión algorítmica se percibe como más justa que la decisión humana. Las capacidades de los algoritmos fomentan la tendencia a proyectar una agencia humana sobre ellos, ya que esta tecnología determina qué servicios, trabajos y resoluciones están disponibles para quién. Además, la industria ha venido y de defendido sus algoritmos como objetivos. Y algunos estudios apoyan esta idea. Una encuesta publicada por el Pew Research Center indica que el 40% de las personas en los EEUU piensan que los ordenadores pueden tomar decisiones sin sesgos.
Sin embargo, los datos en bruto, sin cocina, no existen fuera de la imaginación, dice Boellstorff, ya que son siempre producto de procesos cocinados y de otros datos. Y los algoritmos no deciden ni aprenden. Solo los humanos pueden actuar con la agencia humana, lo que conlleva los procesos de acción basados en la reflexión, la intención y autoconsciencia. Este artículo se basa en esta idea: Los sesgos algorítmicos no ocurren de manera espontánea, independientemente de las personas. Es decir, tanto los conjuntos de datos como las decisiones computarizadas ofrecen una representación imperfecta del mundo; constituyen juicios humanos que reflejan una visión sobre cómo es el mundo.
En realidad, no existe una definición estándar de sesgo algorítmico. Para Mehrabi, Morstatter, Saxena, Lerman y Galstyan, se refiere al tipo de preferencias incorporadas por el algoritmo en contraposición a otros sesgos arraigados en los conjuntos de datos o causados por las personas que manejan los datos en origen. En aras de la brevedad, yo uso el término “sesgo algorítmico” para referirme tanto a sesgos presentes en los conjuntos de datos como a los relacionados con los propios algoritmos.
Existen diferentes tipos de sesgos algoritmos; los más relevantes aquí son:
El sesgo de presentación se deriva de la ubicación en la página web de un contenido particular porque solo se puede hacer clic en las cosas que ven. No existen estudios sobre el sesgo de presentación algorítmica en contenidos audiovisuales desde una perspectiva de género; sin embargo, las imágenes de las mujeres se ven afectadas por los sesgos de presentación en los medios todo el tiempo. Por ejemplo, un estudio determinó que las mujeres aparecían en la portada de los periódicos del Reino Unido solo cuando son celebridades o se las presenta como víctimas