Moderación de contenido en una nueva era para la IA y la automatización

Introducción

Las formas en que las empresas de redes sociales aplican sus reglas de contenido y seleccionan los feeds de las personas han evolucionado considerablemente a lo largo de los 20 años desde el lanzamiento de Facebook en 2004. Hoy, los clasificadores automáticos analizan el contenido y deciden qué contenido debe dejarse, eliminarse o enviarse para su revisión manual. Los sistemas de inteligencia artificial (IA) analizan el comportamiento de los usuarios para personalizar las experiencias en línea clasificando las publicaciones.

Al mismo tiempo, la calidad de las herramientas que utilizan las personas de todo el mundo para crear y alterar contenido ha mejorado notablemente. Desde la autocorrección en el teclado de un teléfono hasta los filtros faciales, la edición de videos y los chatbots generativos, las herramientas para los contenidos generados por los usuarios son notablemente más sofisticadas que cuando comenzaron las redes sociales.

Estos acontecimientos representan un cambio importante que afecta a miles de millones de personas en las redes sociales. La disponibilidad masiva de nuevas y potentes herramientas tiene profundas consecuencias, tanto para las decisiones que toman las empresas para diseñar, desarrollar e incorporar estas tecnologías a sus productos, como para las políticas de contenido que se aplican frente a contenido de mayor calidad generado por los usuarios.

Ahora, las máquinas toman la mayoría de las decisiones de moderación de contenido, no los seres humanos, y este proceso solo tenderá a acelerarse. La automatización amplifica el error humano, con sesgos incorporados a los datos de formación y al diseño del sistema, mientras que las decisiones de aplicación de las normas se toman rápidamente, lo que reduce las oportunidades para la supervisión manual.

Los algoritmos de IA pueden reforzar los sesgos sociales existentes o inclinarse hacia un lado de las divisiones ideológicas. Es imperativo que las plataformas garanticen la incorporación de la libertad de expresión y las consideraciones en materia de derechos humanos a estas herramientas desde el principio y por diseño, teniendo en cuenta los inmensos desafíos institucionales y tecnológicos que plantea la revisión de sistemas que ya funcionan a gran escala.

El Consejo asesor de contenido, un organismo independiente formado por 21 expertos en derechos humanos de todo el mundo, ha investigado casos emblemáticos sobre cómo se aplican las políticas de contenido de Meta mediante algoritmos de IA y técnicas de automatización. El enfoque basado en los derechos humanos del Consejo va mucho más allá de decidir qué contenido específico se debe dejar o eliminar. Nuestros casos profundizan en el diseño y la función de los sistemas automatizados de Meta para dar a conocer qué factores dan lugar a decisiones de moderación de contenido y cómo se pueden mejorar esas herramientas.

En estos casos, se exploran cuestiones clave, como los sistemas de eliminación automatizada de contenido, incluidos lo que Meta llama bancos del Servicio de coincidencias (MMS), las políticas para imágenes explícitas que genera IA y otro contenido multimedia manipulado, y cómo la IA y los sistemas automatizados luchan por comprender el contexto, lo que da lugar a aplicaciones incorrectas de las reglas. Aprovechando nuestra cartera de casos, el compromiso continuo con la sociedad civil y las áreas en las que el Consejo ha implementado exitosamente cambios en las plataformas de Meta, en este artículo, compartimos nuestras lecciones clave para la industria, los reguladores, los expertos y los usuarios en general.

Lecciones fundamentales para la industria

Para hacer frente a la proliferación de imágenes intimas sintéticas en las redes sociales, las plataformas deben centrar sus políticas en detectar la falta de consentimiento entre las personas a las que se dirige dicho contenido. Se debe considerar la generación o manipulación de IA como una señal de que dichas imágenes podrían no tener consentimiento de las personas.
Las plataformas deben aprovechar la automatización para que las personas comprendan mejor las políticas y eviten la eliminación errónea de sus propios contenidos a través de notificaciones informativas a los usuarios. Las personas merecen una explicación de por qué se eliminó su contenido y si fue una decisión humana o automatizada. Cuando se apela a un contenido que ha sido eliminado, las personas también deberían tener la oportunidad de brindar contexto sobre su publicación que los moderadores de contenido, ya sean humanos o de IA, pueden no haber interpretado correctamente, por ejemplo, sátira, concientización y condena. El Consejo ha obligado a Meta a ofrecer nuevas funciones con este fin, que ya están ayudando a millones de usuarios.
Las bases de usuarios globales de las empresas de redes sociales deberían compartir de manera equitativa los beneficios de los nuevos modelos de IA generativa; más allá de los países de habla inglesa o los mercados de Occidente donde las plataformas suelen concentrar la mayor parte de los recursos. Estas mejoras pueden incluir una mayor transparencia, una explicación más precisa del contexto y la identificación de las infracciones a un nivel más detallado. Esto adquiere especial importancia, ya que una baja competencia lingüística y contextual puede dar lugar a una aplicación excesiva o insuficiente.
Los sistemas de selección y moderación automatizados se deben evaluar de manera rigurosa y continua en cuanto a su desempeño para los usuarios más vulnerables y en mayor riesgo. A medida que se implementan nuevos modelos, es de especial importancia garantizar que no exacerben los sesgos sociales existentes que pueden afectar negativamente a los grupos marginados y a otros grupos.
Se debe consultar a expertos del mundo en derechos humanos, libertad de expresión y ética al momento de diseñar e implementar nuevas herramientas de moderación de contenido impulsadas por la IA en las primeras etapas de proceso. Se deben incorporar al diseño medidas de mitigación de riesgos y otras medidas de protección del producto, recomendadas por dichos expertos.
La transparencia es fundamental. Los investigadores externos de todo el mundo deberían tener acceso a datos que les permitan evaluar el impacto de la moderación de contenido algorítmica, la selección de feeds y las herramientas de IA para el contenido generado por el usuario.
La información puede ayudar a abordar la información errónea y la desinformación. Las plataformas deberían colocar etiquetas que indiquen a los usuarios cuando el contenido ha sido alterado considerablemente y podría inducir a error, además de destinar recursos suficientes a la revisión manual que respalda este trabajo.

LOS RETOS PARA LA MODERACIÓN DE CONTENIDO EN LA ERA DE LA IA GENERATIVA

Hay muchas razones para estar entusiasmados y optimistas respecto a la IA generativa. Sin duda, ha aportado beneficios a los creadores de contenidos y a las empresas, desde mejores capacidades de edición de fotografías hasta traducción de idiomas y chatbots de servicio de atención al cliente.

Como la American Civil Liberties Union (ACLU) le señaló al Consejo en un comentario público, no todo el contenido multimedia manipulado es esencialmente perjudicial: "Por el contrario, hay usos de contenidos multimedia manipulados que añaden valor al discurso público, incluidas la parodia y la sátira... así como los discursos sin sentido del humor y públicamente falsos que, sin embargo, son ilustrativos o invitan a la reflexión..." Las plataformas tienen la responsabilidad de proteger dicho discurso.

Sin embargo, la IA generativa, incluidos los modelos extensos de lenguaje diseñados para crear texto, audio e imágenes, pueden contribuir a los daños existentes en Internet (y lo hacen), por ejemplo, mediante abuso sexual basado en imágenes o contenido que engaña a las personas sobre cómo o cuándo votar. Quizás el aspecto más amenazante de estas herramientas impulsadas por la IA es la facilidad de su producción, tanto en la calidad como en la cantidad. Un contenido engañosamente realista se puede generar en segundos y sin contar con gran experiencia.

Mientras que las personas utilizan la IA para crear contenido, las plataformas la utilizan para realizar la moderación de contenido. A medida que se implementa esta nueva tecnología, las empresas de redes sociales deben supervisar si estas herramientas contribuyen a los desequilibrios existentes que socavan la sociedad civil. Los investigadores han planteado que la moderación de contenido podría mejorarse mediante el uso de las nuevas herramientas de IA generativa. Sin embargo, esto podría significar que las plataformas utilizan los modelos de IA generativa para resolver los problemas de moderación de contenido que, a veces, se ven exacerbados por la IA generativa.

Estos sistemas tendrán que demostrar su valía en aspectos clave en los que los modelos anteriores han tenido dificultades, como discernir los matices culturales y lingüísticos de los contenidos. Para comprender cómo funcionan estos sistemas, el acceso a los datos para la investigación de terceros es de vital importancia. Se han propuesto posibles soluciones que permitan a la sociedad civil evaluar los sesgos subyacentes que alimentan estas herramientas de IA generativa, lo que adquiere aún más importancia a medida que se adoptan estos sistemas para realizar la moderación de contenido.

Abuso sexual basado en imágenes

El abuso sexual basado en imágenes no es algo nuevo. Sin embargo, el auge de nuevas herramientas de IA generativa que lo permiten marca una nueva era para el acoso basado en género. Por poco o ningún costo, cualquier persona con conexión a Internet y una fotografía de una persona puede producir imágenes sexualizadas de esa persona, que luego pueden difundirse sin su consentimiento o conocimiento. Los investigadores del abuso sexual en línea sugieren que los daños de las imágenes íntimas sintéticas pueden ser tan graves como los asociados a las imágenes sexuales auténticas que se compartieron sin consentimiento.

La inmensa mayoría de este contenido tiene como objetivo a mujeres y niñas, desde adolescentes a mujeres en la política y otras figuras públicas, incluidas las celebridades. En un comentario público al Consejo, el Center for Democracy and Technology indicó que los medios sintéticos dirigidos a las mujeres en la política están "destinados a desafiar, controlar y atacar su presencia en espacios de autoridad pública".

Al mismo tiempo, la proliferación de las imágenes íntimas sintéticas como forma de acoso adolescente plantea graves problemas de salud mental para las niñas. En The New York Times, se detalló cómo las imágenes sintéticas han aumentado como una forma de acoso que puede provocar graves daños emocionales, perjudicar a la reputación y poner en riesgo la seguridad física. Un caso destacado fue el de una estudiante de una escuela secundaria de Estados Unidos (EE. UU.) que era el blanco de sus compañeros de clase.

Los expertos, consultados por el Consejo, también advirtieron de que este contenido puede ser muy perjudicial en comunidades socialmente conservadoras. Por ejemplo, una mujer de 18 años fue asesinada a tiros por su padre y su tío en la remota región paquistaní de Kohistan luego de que se volviera viral una fotografía alterada digitalmente de ella con un hombre.

Un comentario público de la ONG india Breakthrough Trust explica que en la India, "las mujeres suelen sufrir de victimización secundaria" cuando acceden a los servicios policiales o judiciales, ya que se les pregunta por qué publicaron fotografías suyas en Internet en primer lugar, incluso cuando las imágenes eran medios sintéticos sin consentimiento.

En julio de 2024, el Consejo emitió una decisión con respecto a dos casos de imágenes de mujeres desnudas generadas y manipuladas por IA, una se parece a una figura pública de la India y la otra a una figura pública de EE. UU. Aunque Meta había eliminado la publicación de Facebook que mostraba a la figura pública de EE. UU., no eliminó la publicación de la India hasta que el Consejo seleccionó el caso. En este contexto, se justifica la eliminación para proteger a las personas del intercambio de imágenes sexuales creadas sin su consentimiento. El Consejo indicó que etiquetar las imágenes íntimas sintéticas no es suficiente, ya que los daños surgen del intercambio y la visualización de estas imágenes, no solo del engaño a las personas sobre su autenticidad.

Resulta preocupante que Meta no agregara la imagen que se parecía a una figura pública de la India a un banco del Servicio de coincidencias (MMS) (se incluyen más datos a continuación) hasta que el Consejo preguntó al respecto. Meta respondió y dijo que se había basado en los informes periodísticos para agregar la imagen que se parecía a la figura pública de EE. UU. al banco, pero no hubo tal cobertura de los medios de comunicación en el caso de la India. Esto es preocupante, porque muchas víctimas de imágenes íntimas sintéticas sin consentimiento no están en el ojo público y deben aceptar la difusión de dichas representaciones o buscar y denunciar cada caso.

Si bien los informes de los medios de comunicación pueden ser una señal útil de que este tipo de contenido se realiza sin el consentimiento de las figuras públicas, no es útil para las personas comunes y corrientes. Por lo tanto, las empresas de redes sociales no deben depender de la cobertura de noticias. Las plataformas tienen que detallar con claridad sus políticas sobre qué señales de falta de consentimiento podrían dar lugar a la eliminación de este tipo de contenido y garantizar la implementación de procedimientos convenientes para que los usuarios puedan denunciarlo.

The Board’s cases suggest that social media companies should focus their policies on the lack of consent and harms of such content proliferating. With this focus in mind, context indicating the nude or sexualized aspects of a post are AI-generated or otherwise manipulated should be considered as a signal of non-consent. Setting a standard that AI generation or manipulation of intimate images are inherently indicators of non-consent would be major step forward given the rapid increase of deepfakes.

En última instancia, las plataformas de redes sociales deben identificar y eliminar rápidamente este tipo de contenido y, al mismo tiempo, facilitar que los usuarios lo denuncien. Tanto la India como EE. UU. consideraron leyes y anunciaron nuevos planes para regular los medios sintéticos. Sin embargo, el Consejo recibió muchos comentarios públicos que hacían énfasis en la importancia de que las plataformas sean la primera línea de defensa, ya que los regímenes jurídicos pueden no actuar con la rapidez suficiente para impedir la propagación de este tipo de contenido.

Elecciones

Si bien se sugirió que los usos más tradicionales de la IA, como los algoritmos de clasificación, contribuyen a la polarización política, el auge de la IA generativa abre nuevas vías para el abuso durante las elecciones.

En Taiwán, apareció en YouTube un audio sintético de un político apoyando a otro candidato, situación que nunca ocurrió. En el Reino Unido, hubo clips de audio y video falsos dirigidos a políticos de todo el espectro político. En India, donde más de quinientos millones de votantes acudieron a las urnas para las elecciones de 2024, se informó que las personas fueron bombardeadas con medios sintéticos políticos, incluidos apoyos falsos de celebridades y políticos fallecidos.

El Consejo investigó un caso relacionado con un video manipulado del presidente estadounidense Joe Biden, en donde se lo ve colocando una pegatina con la frase “Yo voté” a su nieta y que fue manipulado para que pareciera que la estaba tocando de forma inapropiada. Cabe destacar que el video del caso Biden no fue alterado por la IA, sino que se puso en bucle el momento en que la mano del presidente hace contacto con el pecho de su nieta.

That the content was altered by more primitive editing tools underscores how the variety of technologies available – whether generative AI or something else – makes the precise method of manipulation less important than the risk that viewers will be misled. As such, social media companies should orient their content policies to protect against the harms they seek to prevent, rather than focusing on the technology used to produce content.

En ese caso, el Consejo también determinó que, en algunas instancias, las plataformas podían colocar una etiqueta para prevenir el daño causado a los usuarios por ser engañados sobre la autenticidad del contenido. Las etiquetas ofrecen contexto a las personas y les permiten llegar a sus propias conclusiones. Este es un enfoque menos intrusivo que las eliminaciones, por lo que se puede dejar más contenido publicado y, así, las empresas de redes sociales protegen la libre expresión de los usuarios.

Tras la decisión del Consejo, Meta anunció planes para comenzar a etiquetar una gama más amplia de imágenes, videos y audios alterados por la IA. Esta es una recomendación clara que otras plataformas deberían plantearse adoptar.

Desigualdad de idiomas

Con las nuevas generaciones de IA que implementan las plataformas de redes sociales, es fundamental que las empresas garanticen que esta tecnología pueda brindar un servicio justo a las personas. En nuestras investigaciones, se determinó que los recursos de moderación de contenido no siempre se distribuyen equitativamente. Por ejemplo, en la opinión consultiva sobre políticas del Consejo acerca de la información errónea sobre el COVID-19, las partes interesadas resaltaron cómo la mayoría de los idiomas, aparte del inglés, tienen una cobertura de verificación de datos significativamente menor. Una vez más, en otro caso relacionado con la información periodística sobre los talibanes, el Brennan Center for Justice expresó su preocupación en el siguiente comentario público: "A menudo, las herramientas automatizadas de Meta no tienen en cuenta el contexto, especialmente en idiomas que no sean el inglés".

La desigualdad del idioma es la mayor preocupación, ya que las plataformas buscan incorporar modelos extensos de lenguaje de IA. Según se informa, algunas empresas tecnológicas se inclinan por un enfoque agnóstico del lenguaje en sus modelos extensos de lenguaje, debido al texto de capacitación limitado para ciertos idiomas. Según los desarrolladores y defensores de estos modelos multilingües, son capaces de aprovechar su rendimiento en algunos idiomas de "altos recursos" para compensar una relativa falta de datos de formación en idiomas de "bajos recursos".

Sin embargo, los críticos de estos modelos multilingües apuntan a posibles disparidades entre los idiomas de altos y bajos recursos en términos de precisión al momento de detectar y aplicar infracciones. A pesar de los avances en la tecnología de traducción impulsada por la IA, sigue sin estar claro con qué eficacia un modelo entrenado principalmente en inglés traducido por máquinas puede tener en cuenta los matices culturales o humorísticos del, por ejemplo, amárico, que lo hablan decenas de millones de personas en Etiopía.

Independientemente de cómo están construidos, para que los nuevos modelos de IA cumplan la promesa de una aplicación más precisa y transparente, esos beneficios deben distribuirse adecuadamente entre las bases de usuarios globales de las plataformas. Las empresas no deben evaluar el desempeño del modelo basándose solo en los resultados de evaluaciones de referencia en inglés o de pruebas agregadas en las que el inglés está desproporcionadamente representado, sino más bien teniendo en cuenta la amplitud de su audiencia mundial.

DE QUÉ MANERA LA AUTOMATIZACIÓN RIGE LAS PLATAFORMAS

Las plataformas dependen cada vez más de la automatización para realizar la moderación de contenido. Esto significa que los sistemas automatizados, al aplicar las políticas e identificar y recomendar contenido, deciden qué consumen o no los seres humanos como usuarios de redes sociales.

Para ser claros, la automatización incluye las herramientas que se basan en reglas y se centran en tareas repetitivas, como marcar publicaciones con determinadas palabras o bloquear a usuarios que infringen reiteradamente las reglas. En comparación, las herramientas de IA para la moderación de contenido son más versátiles. Utilizan el aprendizaje automático y pueden intentar tomar decisiones basadas en el análisis de patrones.

El lado positivo de la automatización es la adaptabilidad, pero las inquietudes (al menos por ahora) son si estas herramientas pueden equilibrar la escala con precisión y evitar los sesgos sistémicos. Las organizaciones de la sociedad civil y las personas le suelen plantear al Consejo el equilibrio como una de las principales inquietudes.

Falta de contexto: Cómo las máquinas causan una aplicación excesiva o
insuficiente

Aplicación excesiva:

Sin auditorías y recapacitaciones regulares, a menudo, los clasificadores automáticos pueden ser una herramienta de aplicación poco contundente. En uno de los primeros casos, el Consejo vio una imagen publicada en Instagram para generar conciencia sobre los síntomas del cáncer de mamá. La imagen era rosa, en línea con "Octubre rosa", una campaña internacional popular en Brasil para generar conciencia sobre el cáncer de mama. Ocho fotografías dentro de una sola imagen mostraban los síntomas del cáncer de mama con descripciones correspondientes, como "ondulaciones", "bultos" y "heridas". Cinco de las fotografías incluían pezones femeninos visibles y descubiertos. Las otras tres incluían pechos femeninos con los pezones fuera de escena o cubiertos por una mano.

A pesar de que la publicación tenía una gran cantidad de señales que indicaban su carácter inofensivo e informativo, un clasificador de aprendizaje automático entrenado para identificar desnudos en las fotos la detectó y la eliminó. Por lo general, las normas comunitarias de Meta prohíben la exhibición de los pezones femeninos, pero existen concesiones para “fines educativos o médicos”, incluida la conciencia sobre el cáncer de mama. Desafortunadamente, los sistemas automatizados de Meta no reconocieron el contexto importante, incluidas las palabras "Cáncer de mama" que aparecían arriba de la imagen en portugués.

El Consejo le recomendó a Meta mejorar su detección automática de imágenes con texto superpuesto para garantizar que las publicaciones que generan conciencia sobre los síntomas del cáncer de mama no se marquen por error para su revisión. En respuesta, Meta mejoró las técnicas de Instagram para identificar las señales contextuales, también a través del texto, que sean relevantes para el cáncer de mama. La empresa implementó estos cambios en julio de 2021 y, desde entonces, estas mejoras entraron en vigor. Para brindar un panorama del impacto de estas mejoras, durante los 30 días transcurridos entre el 26 de febrero y el 27 de marzo de 2023, estas mejoras contribuyeron a que se enviaran a revisión manual 2500 contenidos adicionales que antes se habrían eliminado.

Dado el volumen, la escala y la velocidad a la que se difunden los contenidos en las redes sociales, el Consejo aceptó que la automatización es fundamental para detectar contenido potencialmente infractor. Sin embargo, la aplicación que se basa solo en la automatización, al utilizar tecnologías con una capacidad limitada para comprender el contexto, puede dar lugar a una aplicación excesiva que interfiere desproporcionadamente con la libertad de expresión.

Para ser claros, la automatización funciona para una gran parte de la moderación de contenido, pero suele fallar en áreas específicas y de vital importancia, como en el ejemplo que se explica anteriormente. La automatización podría comprender mejor el contexto, pero requiere de supervisión y recursos para afinar estas herramientas, como en el caso del cáncer de mama. Con las nuevas generaciones de IA y la automatización, las plataformas deben comprometerse a perfeccionar la calidad de la aplicación en relación con temas importantes de contenido (por ejemplo, educación para la salud) y donde se produzcan altos índices de errores del sistema de cumplimiento de normas.

Sanciones: El Consejo también está preocupado por las sanciones asociadas con la aplicación excesiva por parte de la automatización. La automatización puede eliminar erróneamente las publicaciones, además de sancionar a las cuentas pertinentes o degradar su contenido. El historial de infracciones de una cuenta puede determinar si se imponen sanciones más severas, incluidas las restricciones de publicación. Debido a que la automatización se mueve rápidamente, las infracciones pueden acumularse e inhabilitar las cuentas. El Consejo logró motivar a Meta para que reforme su sistema de faltas mediante nuevas notificaciones en las que se explica por qué se eliminó el contenido y al ofrecer mayor transparencia sobre el sistema y sus sanciones. Sin embargo, hay más margen de mejora en torno a las infracciones más graves, que pueden afectar en gran medida a periodistas y activistas. Por este motivo, el Consejo pidió mayor transparencia sobre las "faltas graves" y continuará haciéndolo.

Aplicación insuficiente:

El lenguaje codificado no es nada nuevo ni fuera de lo común. En Internet, frases como "sin vida" pueden significar muerte, a los grupos antivacunas de Facebook se los llama "cenas" y a los trabajadores sexuales, "contables". A menudo, los usuarios escriben mal a propósito (c0vid) o utilizan emojis, como rebanadas de sandía para referirse a Palestina, para evadir la detección del algoritmo y la aplicación de las normas.

No obstante, cuando se codifica el lenguaje que incita al odio para evadir la detección de los sistemas automatizados, puede surgir un entorno en línea inseguro.

El Wilson Center, un centro de estudio con sede en Washington D.C., hace referencia al lenguaje que incita al odio codificado como una "creatividad maligna" y afirma que es un gran obstáculo para detectar y hacer frente a los ataques de género en línea. Puede presentarse en forma de sátira o de elementos visuales basados en el contexto que requieren conocimiento de la situación para comprenderlos; por lo general, las herramientas automatizadas no están calibradas para detectarlos.

En el caso del Consejo sobre la publicación en polaco dirigida a personas trans, el Consejo asesor de contenido anuló la decisión original de Meta de dejar una publicación de Facebook donde un usuario se dirigió a las personas trans con un discurso violento que promovía el suicidio. En la publicación, se incluía una imagen de una cortina a rayas con los colores azul, rosa y blanco de la bandera transgénero, con texto en polaco. Los sistemas automatizados de Meta no se percataron de los indicios clave del contexto, incluida una referencia al suicidio (“cortinas que se cuelgan solas”), el apoyo a la muerte de personas trans (“limpieza de primavera”) e incluso una confesión en la biografía del usuario de que es transfóbico.

El problema fundamental en este caso no son las políticas de Meta, sino su aplicación. Los sistemas automatizados que hacen cumplir las políticas de contenido y priorizan el contenido para su revisión necesitan capacitación para poder reconocer el tipo de lenguaje codificado y las imágenes basadas en el contexto que se consideran en este caso. Es de vital importancia que las plataformas auditen la precisión de estos sistemas, en especial con respecto a las referencias codificadas.

Estudios de caso

El Consejo lleva más de tres años emitiendo decisiones y comenzó a comprender mejor el impacto de sus recomendaciones en los usuarios una vez que se implementan. En los siguientes dos estudios de caso, se presentan datos que demuestran cómo los cambios que el Consejo obligó a Meta a implementar permiten a los usuarios agregar contexto que la automatización puede haber pasado por alto o editar su publicación antes de que se tome una posible decisión de eliminación automática.

Permitir a los usuarios brindar contexto

A menudo, las personas nos dicen que Meta eliminó publicaciones con fines de repudio, burlas o generación de conciencia que llamaban la atención por lenguaje que incita al odio debido a la incapacidad de los sistemas automatizados (y, a veces, de quienes realizan revisiones manuales) para distinguir entre dichas publicaciones y el lenguaje que incita al odio en sí. Para abordar esta cuestión, el Consejo recomendó que Meta cree una forma conveniente para que los usuarios indiquen en sus apelaciones que sus publicaciones se clasificaron en una de estas categorías. Meta aceptó la recomendación, y los usuarios ya utilizan la función de manera muy activa.

En febrero de 2024, Meta recibió más de siete millones de apelaciones de personas cuyo contenido había sido eliminado en función de sus reglas sobre el lenguaje que incita al odio. Ocho de cada 10 de los que apelaron optaron por utilizar esta nueva opción para proporcionar contexto adicional. Uno de cada cinco de estos usuarios indicó que su contenido era para "generar conciencia", mientras que uno de cada tres optó por "era una broma". El Consejo cree que darles voz a las personas, y escucharlas, puede ayudar a Meta a tomar mejores decisiones.

Alertas que permiten a los usuarios tomar sus propias decisiones

En el caso de las protestas en Rusia a favor de Navalny, el Consejo anuló la decisión de Meta de eliminar un comentario en el que un partidario del fallecido líder de la oposición rusa Alexei Navalny llamó a otro usuario un "bot cobarde".

Originalmente, Meta eliminó el comentario por usar la palabra "cobarde", que se interpretó como una afirmación de carácter negativo. El Consejo concluyó que, si bien la eliminación del contenido pudo haber sido coherente con una aplicación estricta de la norma comunitaria sobre bullying y acoso, la aplicación de la política no tuvo en cuenta el contexto más amplio y restringió desproporcionadamente la libertad de expresión.

Como parte de su decisión, el Consejo recomendó que, siempre que Meta elimine contenido debido a una afirmación de carácter negativo que sea solo una palabra o frase en una publicación más extensa, debería notificar rápidamente a los usuarios sobre ese hecho para que puedan realizar cambios y volver a publicar el material.

En respuesta a esta recomendación, cuando los sistemas automatizados de Meta detectan que alguien está por publicar contenido con una posible infracción, la empresa ahora les notifica a los usuarios para que tengan tiempo de revisarla. Esta nueva alerta ofrece una oportunidad para que las personas eliminen y vuelvan a publicar su contenido con ediciones, en lugar de que sea eventualmente eliminado.

Este cambio ya está llegando a millones de personas. Durante un periodo de 12 semanas en 2023, más de 100 millones de publicaciones activaron estas notificaciones de usuario, 17 millones de las cuales estaban relacionadas con la política de bullying y acoso.

Moderación de contenido durante conflictos

Depender de la automatización puede ser muy difícil cuando las situaciones de emergencia aumentan la presión sobre estos sistemas. A menudo, hay una afluencia de contenidos procedentes de regiones que atraviesan conflictos o crisis. Esto ejerce presión sobre los sistemas de moderación de contenido que utilizan IA y automatización para identificar infracciones, por lo que aumenta la tasa de errores del sistema de cumplimiento de normas.

Los sistemas de clasificación automatizados de Meta (clasificadores) utilizan una variedad de funciones al momento de determinar qué medidas se deben tomar con respecto al contenido, incluidas la puntuación en función de la probabilidad de infracción, la gravedad de la posible infracción y la viralidad del contenido. En las primeras decisiones expeditas del Consejo en 2023 sobre el conflicto entre Israel y Gaza, el Consejo anuló la decisión original de Meta de eliminar dos publicaciones de sus plataformas.

Como parte de su respuesta inicial al conflicto, Meta redujo temporalmente los umbrales de confianza de sus clasificadores que identifican y eliminan el contenido que infringen sus políticas de contenido violento y gráfico, lenguaje que incita al odio, violencia e incitación, y bullying y acoso. Las medidas temporales se aplicaron al contenido procedente de Israel y Gaza en todos los idiomas.

Esto implicó que Meta utilizara sus herramientas de automatización para eliminar de manera tajante el contenido que pueda infringir sus políticas, aunque sea solo de manera leve. Si bien esto redujo la probabilidad de que Meta no pudiera eliminar el contenido que infringía las normas que, de otro modo, podría eludir la detección, también dio lugar a una drástica eliminación de contenido no infractor relacionado con el conflicto.

En el caso del hospital Al-Shifa, que se centró en contenidos que incluían imágenes de video de un ataque durante las operaciones militares israelíes en Gaza, se mostró cómo la falta de supervisión humana durante la respuesta a una crisis puede dar lugar a la eliminación incorrecta de un discurso que puede ser de gran interés público. La decisión inicial de eliminar este contenido y el rechazo de la apelación del usuario se tomaron automáticamente en función de la puntuación del clasificador, sin ninguna revisión manual.

Otro caso urgente, que involucraba un video que mostraba a rehenes secuestrados de Israel durante el ataque terrorista de Hamas del 7 de octubre, destacó la preocupación por la degradación de contenidos. Después de que el Consejo identificó este caso, Meta revirtió su decisión original de eliminar la publicación y la restauró con una advertencia en la pantalla que decía "marcado como perturbador". Esto restringió la visibilidad del contenido a los mayores de 18 años y lo eliminó de las recomendaciones de otros usuarios de Facebook.

Eliminar el contenido de los sistemas de recomendación implica reducir el alcance que tendría de otro modo. Degradar o aplicar otros tipos de "acciones moderadas" a este tipo de publicaciones, que tienen un interés público y tienen como objetivo llamar la atención sobre los abusos de los derechos humanos, puede no ser una restricción necesaria o proporcional a la libertad de expresión. Esto también cuestiona la opacidad de las decisiones de degradar ciertas publicaciones, que se toman sin explicación y de manera poco transparente.

Estos casos recalcan la necesidad de las plataformas de adoptar un enfoque coherente y transparente para realizar la moderación de contenido durante los conflictos. Las empresas de redes sociales no pueden improvisar las reglas durante un momento de crisis. La falta de transparencia en torno a la toma de decisiones puede tener un efecto intimidatorio sobre las personas que temen que se elimine su contenido y se sancione su cuenta si cometen un error.

Sistemas de aplicación de contenido automáticos

Los bancos del Servicio de coincidencias de Meta, que son un tipo de sistema de aplicación de contenido automático, son básicamente depósitos de contenido sobre los que Meta ya tomó una decisión de moderación. Estas bibliotecas de contenidos, los "bancos", identifican automáticamente imágenes y videos que los revisores manuales ya señalaron como infractores o no de las políticas de contenido, y actúan sobre el contenido posterior según las reglas de ese banco.

En el caso de la caricatura sobre la policía colombiana, el Consejo anuló la decisión original de Meta de eliminar una publicación de Facebook de una caricatura que representaba la violencia policial en Colombia. Un revisor manual agregó erróneamente la caricatura al banco del Servicio de coincidencias (MMS) de Meta, lo que dio lugar a una eliminación masiva y desproporcionada de la imagen de la plataforma. El Consejo concluyó que 215 usuarios apelaron sobre estas eliminaciones y el 98 % de ellos tuvo éxito. Se debería haber realizado una revisión debido a la alta tasa de anulaciones; sin embargo, Meta no eliminó la caricatura de este banco hasta que el caso llegó al Consejo.

En este caso, se muestra cómo estos sistemas de eliminación de contenido automáticos pueden aumentar el impacto de las decisiones incorrectas que toman los revisores manuales. Lo que está en juego en las incorporaciones erróneas a estos sistemas es especialmente crítico cuando, como en este caso, el contenido consta de un discurso político que se concibe como protesta contra los agentes gubernamentales.

Conclusión

Las empresas de redes sociales dependen en gran medida de los sistemas automatizados y de la IA. Según informes relevantes de los últimos años, hubo un aumento masivo de la cantidad de contenido que se detectó y eliminó automáticamente de las plataformas digitales. Hasta ahora, las herramientas más comunes todavía no tienen en cuenta el contexto y no siempre proporcionan un razonamiento detallado de por qué se eliminó el contenido.

Los nuevos modelos de IA generativa presentan posibles mejoras importantes en la capacidad de identificar automáticamente infracciones de líneas de política específicas. Es posible que las nuevas herramientas de IA generativa puedan interpretar mejor el significado del contenido y explicar las medidas de aplicación a los usuarios. Sin embargo, todavía hay mucho trabajo por hacer para comprender los sesgos y errores de estos sistemas para desarrollar procesos de supervisión adecuados.

Si bien las empresas de redes sociales han dado señales de receptividad ante las preocupaciones y los desafíos éticos de la IA relacionados con la IA generativa, deben articular con claridad cómo pretenden alinear su desarrollo y sus respuestas a las nuevas tecnologías de IA con sus responsabilidades de respetar los derechos humanos. Es importante destacar que sigue siendo fundamental una rendición de cuentas rigurosa por parte de terceros, incluso en cuestiones importantes como abordar los riesgos sistémicos a la libertad de expresión, el acceso a los datos que permiten evaluar la precisión con la que funcionan los sistemas de moderación de contenido en general (más allá de casos de contenido específicos) y la transparencia en torno a sanciones, como degradaciones de contenido o "baneos en la sombra".

Reconocimientos

Esta artículo fue escrito por un grupo de trabajo de miembros del Consejo asesor de contenido.

Download the Paper

Regreso al liderazgo intelectual