La modération du contenu entre dans une nouvelle ère pour l’IA et l’automatisation

Introduction

La manière dont les entreprises de médias sociaux appliquent leurs règles en matière de contenu et gèrent les fils d’actualité a considérablement évolué au cours des 20 années qui se sont écoulées depuis le lancement de Facebook en 2004. Aujourd’hui, des classificateurs automatisés analysent les contenus et décident ce qui doit être laissé en ligne, supprimé ou soumis à un examen manuel. Les systèmes d’intelligence artificielle (IA) analysent le comportement des utilisateurs pour personnaliser l’expérience en ligne en classant les publications.

Parallèlement, la qualité des outils utilisés par les internautes du monde entier pour créer et modifier des contenus s’est considérablement améliorée. De la correction automatique sur un clavier de téléphone aux filtres de visage, en passant par le montage vidéo et les chatbots génératifs, les outils de création de contenu par les utilisateurs sont remarquablement plus sophistiqués qu’à l’époque où les médias sociaux ont vu le jour.

Ces évolutions représentent un changement majeur qui touche des milliards de personnes sur les médias sociaux. La disponibilité massive de nouveaux outils puissants a de profondes répercussions, tant pour les décisions que prennent les entreprises en matière de conception, de développement et d’intégration de ces technologies dans leurs produits, que pour les politiques de contenu appliquées aux contenus générés par les utilisateurs, désormais de meilleure qualité.

La plupart des décisions de modération du contenu sont aujourd’hui prises par des machines, et non par des êtres humains, et cette tendance devrait encore s’accélérer. L’automatisation amplifie l’erreur humaine, en intégrant des biais dans les données d’entraînement et la conception du système. De plus, les décisions d’application sont prises rapidement, laissant peu de place à la supervision humaine.

Les algorithmes d’IA peuvent renforcer les préjugés sociétaux existants ou pencher d’un côté des clivages idéologiques. Il est impératif que les plateformes intègrent la liberté d’expression et les droits de l’homme dès la conception de ces outils, tout en gardant à l’esprit les immenses défis institutionnels et technologiques que représente le remaniement de systèmes fonctionnant déjà à grande échelle.

Le Conseil de surveillance, un organe indépendant composé de 21 experts des droits de l’homme du monde entier, a enquêté sur des cas emblématiques concernant l’application des politiques de contenu de Meta par des algorithmes d’IA et des techniques d’automatisation. L’approche du Conseil, fondée sur les droits de l’homme, va bien au-delà de la décision de laisser en ligne ou de retirer un contenu spécifique. Nos cas explorent la conception et le fonctionnement des systèmes automatisés de Meta afin de mettre en lumière les facteurs qui conduisent aux décisions de modération du contenu, et comment ces outils peuvent être améliorés.

Ces cas abordent des questions essentielles telles que les systèmes automatisés de suppression de contenu, y compris ce que Meta appelle les banques de services de mise en correspondance du contenu multimédia, les politiques relatives aux images explicites générées par l’IA et d’autres supports manipulés, et les difficultés de l’IA et des systèmes automatisés à comprendre le contexte, ce qui conduit souvent à une application incorrecte des règles. En s’appuyant sur notre portefeuille de cas, notre engagement continu avec la société civile et les domaines dans lesquels le Conseil a réussi à instaurer des changements sur les plateformes de Meta, ce document présente nos principaux enseignements pour le secteur, les autorités de réglementation, les experts et les utilisateurs en général.

Principaux enseignements pour le secteur

  • Pour lutter contre la prolifération des deepfakes d’images à caractère sexuel sur les médias sociaux, les plateformes devraient centrer leurs politiques sur la détection de l’absence de consentement des personnes visées par ce type de contenu. La génération ou la manipulation par l’IA devrait être considérée comme un signal indiquant que ces images pourraient être non consenties.
  • Les plateformes devraient tirer parti de l’automatisation pour permettre aux utilisateurs de mieux comprendre les politiques et d’éviter la suppression erronée de leur propre contenu, notamment au moyen de notifications informatives aux utilisateurs. Les internautes méritent qu’on leur explique pourquoi leur contenu a été retiré et s’il s’agit d’une décision humaine ou automatisée. Lorsqu’ils contestent la suppression de leur contenu, les utilisateurs devraient pouvoir fournir le contexte de leur publication, que les modérateurs de contenu, qu’ils soient humains ou automatiques, n’ont peut-être pas interprété correctement, comme la satire, la sensibilisation et la condamnation. Le Conseil a poussé Meta à lancer de nouvelles fonctionnalités à cette fin qui aident déjà des millions d’utilisateurs.
  • Les avantages des nouveaux modèles d’IA générative devraient être partagés équitablement parmi les bases d’utilisateurs mondiales des entreprises de médias sociaux, et non limités aux pays anglophones ou aux marchés occidentaux où les plateformes concentrent généralement le plus de ressources. Ces améliorations peuvent inclure une plus grande transparence, une prise en compte plus précise du contexte et l’identification des violations à un niveau plus granulaire. Cela est d’autant plus important qu’une faible compétence linguistique et contextuelle peut conduire à une application excessive ou insuffisante des politiques.
  • Les systèmes automatisés de modération et de curation doivent être soumis à une évaluation rigoureuse et continue de leurs performances, en particulier pour les utilisateurs les plus vulnérables et les plus exposés. À mesure que de nouveaux modèles sont déployés, il est crucial de veiller à ce qu’ils n’exacerbent pas les préjugés sociétaux existants, susceptibles de nuire aux groupes marginalisés et autres.
  • Des experts mondiaux en matière de droits de l’homme, de liberté d’expression et d’éthique devraient être consultés lors de la conception et du déploiement de nouveaux outils de modération du contenu basés sur l’IA, et ce dès le début du processus. Les mesures d’atténuation des risques et autres garde-fous recommandés par ces experts devraient être intégrés à leur conception.
  • La transparence est primordiale. Les chercheurs tiers du monde entier devraient avoir accès aux données nécessaires pour évaluer l’impact de la modération algorithmique, de la curation du fil d’actualité et des outils d’IA sur le contenu généré par les utilisateurs.
  • L’information peut contribuer à lutter contre la fausse information et la désinformation. Les plateformes devraient apposer des étiquettes indiquant aux utilisateurs lorsque le contenu est considérablement modifié et pourrait induire en erreur, tout en allouant suffisamment de ressources à l’examen manuel pour soutenir ce travail.

LES DÉFIS DE LA MODÉRATION DU CONTENU À L’ÈRE DE L’IA GÉNÉRATIVE

Il y a de nombreuses raisons d’être enthousiaste et optimiste à propos de l’IA générative. Elle a incontestablement apporté des avantages aux créateurs de contenu et aux entreprises, notamment grâce à de meilleures capacités de montage de photos, de traduction linguistique ou de chatbots pour les services client.

Comme l’a souligné l’Union américaine pour les libertés civiles (ACLU, American Civil Liberties Union) dans un commentaire public adressé au Conseil, les médias manipulés ne sont pas tous intrinsèquement nuisibles : « Au contraire, certaines utilisations des médias manipulés enrichissent le débat public, notamment par la parodie et la satire […], ainsi que par des discours dénués d’humour et manifestement faux, mais qui sont néanmoins révélateurs ou incitent à la réflexion ». Les plateformes ont la responsabilité de protéger ce type de contenu.

Cependant, l’IA générative, y compris les grands modèles de langage conçus pour créer du texte, de l’audio et des images, peut contribuer et contribue effectivement aux préjudices existants sur Internet, comme la violence sexuelle fondée sur l’utilisation d’images ou les contenus induisant les gens en erreur quant au moment et à la manière de voter. L’aspect le plus menaçant de ces nouveaux outils alimentés par l’IA est peut-être la facilité de production, qui favorise à la fois la qualité et la quantité. Des contenus d’un réalisme trompeur peuvent être générés en quelques secondes et sans expertise particulière.

Alors que les gens utilisent l’IA pour créer du contenu, les plateformes l’utilisent pour modérer le contenu. Au fur et à mesure du déploiement de cette nouvelle technologie, les entreprises de médias sociaux devraient vérifier si ces outils contribuent aux déséquilibres existants qui minent la société civile. Des chercheurs ont avancé que la modération du contenu pourrait être améliorée grâce à l’utilisation de nouveaux outils d’IA générative. Toutefois, cela pourrait signifier que les plateformes utilisent des modèles d’IA générative pour résoudre les problèmes de modération du contenu qui sont parfois exacerbés par l’IA générative.

Ces systèmes devront faire leurs preuves sur des caractéristiques clés pour lesquelles les modèles précédents ont eu des difficultés, comme la perception de nuances culturelles et linguistiques dans le contenu. L’accès aux données pour la recherche par des tiers est d’une importance cruciale pour comprendre les performances de ces systèmes. Des solutions possibles ont été proposées pour permettre à la société civile d’évaluer les biais sous-jacents qui alimentent ces outils d’IA générative, ce qui devient d’autant plus important que ces systèmes sont adoptés pour la modération du contenu.

Violence sexuelle fondée sur l’utilisation d’images

La violence sexuelle fondée sur l’utilisation d’images n’est pas nouvelle, mais l’explosion des nouveaux outils d’IA générative qui la facilitent marque une nouvelle ère pour le harcèlement sexiste. Pour un coût modique ou nul, toute personne disposant d’une connexion Internet et d’une photo de quelqu’un peut produire des images sexualisées de cette personne, qui peuvent ensuite être diffusées sans son consentement ou à son insu. Les chercheurs spécialisés dans la violence sexuelle en ligne estiment que les préjudices causés par les deepfakes d’images à caractère pornographique peuvent être aussi graves que ceux associés aux images sexuelles authentiques partagées sans le consentement de la personne concernée.

L’écrasante majorité de ces contenus cible les femmes et les jeunes filles, qu’il s’agisse d’adolescentes, de politiciennes, de personnalités publiques ou de célébrités. Dans un commentaire public adressé au Conseil, le Center for Democracy and Technology a fait remarquer que les deepfakes ciblant des femmes en politique sont « destinés à contester, contrôler et attaquer leur présence dans les espaces d’autorité publique ».

Par ailleurs, la prolifération des deepfakes d’images à caractère pornographique utilisés comme forme d’intimidation chez les adolescentes soulève de graves problèmes de santé mentale chez les jeunes filles. Le New York Times a rapporté que les deepfakes d’images sont devenus une forme de harcèlement pouvant entraîner de graves préjudices émotionnels, nuire à la réputation et menacer la sécurité physique. L’un des cas les plus marquants est celui d’une élève d’un lycée aux États-Unis qui a été prise pour cible par des camarades de classe.

Les experts consultés par le Conseil ont également signalé que ce type de contenu peut être particulièrement préjudiciable dans les communautés socialement conservatrices. Ainsi, une jeune femme de 18 ans aurait été abattue par son père et son oncle dans la région reculée du Kohistan, au Pakistan, après qu’une photo numériquement modifiée d’elle en compagnie d’un homme est devenue virale.

Un commentaire public de l’ONG indienne Breakthrough Trust explique qu’en Inde, « les femmes sont souvent confrontées à une victimisation secondaire » lorsqu’elles s’adressent aux services de police ou aux tribunaux, car on leur demande pourquoi elles ont mis des photos d’elles-mêmes sur l’internet en premier lieu - même lorsque les images étaient des deepfakes non consentis.

En juillet 2024, le Conseil a rendu une décision sur deux cas mettant en cause des images générées et manipulées par l’IA, représentant des femmes nues, l’une ressemblant à une personnalité publique indienne, l’autre à une personnalité publique américaine. Bien que Meta ait supprimé de Facebook la publication concernant la personnalité publique américaine, elle n’a pas supprimé celle provenant d’Inde avant que le Conseil ne sélectionne le cas. Dans ce contexte, la suppression est justifiée afin de protéger les individus contre le partage d’images à caractère sexuel réalisées sans leur consentement. Le Conseil a souligné que l’apposition d’une étiquette sur les deepfakes d’images à caractère pornographique est insuffisante, dans la mesure où le préjudice provient du partage et de la visualisation de ces images, et n’est pas uniquement lié au fait de tromper le public quant à leur authenticité.

Fait préoccupant, les images rappelant une personnalité publique indienne n’avaient pas été ajoutées à une base de services de mise en correspondance du contenu multimédia (plus de détails ci-dessous) par Meta avant que le Conseil ne pose des questions à ce sujet. En réponse, Meta a affirmé s’être appuyé sur des rapports médiatiques pour ajouter à la base l’image représentant la personnalité publique américaine, mais qu’il n’y avait pas eu de couverture médiatique de ce type dans le cas de l’Inde. Cette situation est préoccupante, car de nombreuses victimes de fausses images pornographiques non consenties ne sont pas connues du grand public et sont obligées d’accepter la diffusion de ces images ou de rechercher et de signaler chaque cas.

Si les médias peuvent utilement signaler que ce type de contenu est non consenti pour les personnalités publiques, ils ne sont d'aucune utilité pour les particuliers. Il est donc recommandé aux entreprises de médias sociaux de ne pas se fier outre mesure à la couverture médiatique. Les plateformes doivent indiquer clairement dans leurs politiques quels signaux de non-consentement entraîneraient la suppression de ce type de contenu et veiller à ce que les utilisateurs disposent de moyens pratiques pour le signaler.

The Board’s cases suggest that social media companies should focus their policies on the lack of consent and harms of such content proliferating. With this focus in mind, context indicating the nude or sexualized aspects of a post are AI-generated or otherwise manipulated should be considered as a signal of non-consent. Setting a standard that AI generation or manipulation of intimate images are inherently indicators of non-consent would be major step forward given the rapid increase of deepfakes. 

En fin de compte, les plateformes de médias sociaux doivent rapidement identifier et supprimer ce type de contenu, tout en permettant aux utilisateurs de le signaler facilement. L’Inde et les États-Unis ont tous deux examiné des lois et annoncé d’autres projets pour réglementer les deepfakes. Toutefois, le Conseil a reçu de nombreux commentaires publics soulignant l’importance pour les plateformes d’être la première ligne de défense, car les régimes juridiques risquent de ne pas agir assez rapidement pour empêcher la prolifération de ce type de contenu.

Élections

Alors qu’il a été avancé que des utilisations plus traditionnelles de l’IA, telles que les algorithmes de classement, contribuent à la polarisation politique, l’essor de l’IA générative ouvre de nouvelles possibilités d’abus pendant les élections.

À Taïwan, un deepfake audio a été diffusé sur YouTube, montrant un homme politique soutenant un autre candidat, ce qui ne s’est jamais produit. Au Royaume-Uni, de faux clips audio et vidéo ont ciblé des hommes politiques de tous bords. En Inde, où plus d’un demi-milliard d’électeurs se sont rendus aux urnes pour les élections de 2024, les gens auraient été bombardés de deepfakes politiques, y compris de faux soutiens de célébrités et de personnalités politiques décédées.

Le Conseil a enquêté sur un cas impliquant une vidéo truquée du président américain Joe Biden, dans laquelle des images de lui en train de placer un autocollant « J’ai voté » sur sa petite-fille ont été manipulées pour donner l’impression qu’il la touchait de façon inappropriée. Il convient de noter que la vidéo du cas Biden n’a pas été modifiée par l’IA, mais plutôt par la mise en boucle du moment où la main du président a touché la poitrine de sa petite-fille.

That the content was altered by more primitive editing tools underscores how the variety of technologies available – whether generative AI or something else – makes the precise method of manipulation less important than the risk that viewers will be misled. As such, social media companies should orient their content policies to protect against the harms they seek to prevent, rather than focusing on the technology used to produce content.

Le Conseil a également conclu que, dans certaines circonstances, les plateformes pouvaient prévenir le préjudice causé aux utilisateurs par la tromperie sur l’authenticité du contenu en y apposant une étiquette. Les étiquettes donnent aux utilisateurs le contexte nécessaire pour tirer leurs propres conclusions. Il s’agit également d’une approche moins intrusive que les suppressions, permettant ainsi de conserver un plus grand nombre de contenus en ligne et aux entreprises de médias sociaux de protéger la liberté d’expression des utilisateurs.

À la suite de la décision du Conseil, Meta a annoncé son intention de commencer à étiqueter une plus grande variété d’images, de vidéos et d’audios modifiés par l’IA. Il s’agit d’une recommandation claire que les autres plateformes devraient envisager d’adopter.

Disparité linguistique

Avec les nouvelles générations d’IA déployées par les plateformes de médias sociaux, il est essentiel que les entreprises s’assurent que cette technologie peut servir les gens de manière équitable. Nos enquêtes ont révélé que les ressources de modération du contenu ne sont pas toujours réparties équitablement. Par exemple, dans l’avis consultatif du Conseil en matière de politiques relatives aux fausses informations sur le COVID-19, les parties prenantes ont souligné que la plupart des langues, à l’exception de l’anglais, bénéficient d’une couverture nettement inférieure en matière de vérification des faits. De même, dans un autre cas concernant les actualités au sujet des talibans, le Brennan Center for Justice a exprimé ses préoccupations dans le commentaire public suivant : « Les outils automatisés de Meta ne tiennent toujours pas compte du contexte, en particulier dans les langues autres que l’anglais. »

La disparité linguistique est une préoccupation majeure alors que les plateformes cherchent à intégrer de grands modèles de langage d’IA. Certaines entreprises technologiques seraient en train d’adopter une approche agnostique de la langue dans leurs grands modèles de langage, en raison du nombre limité de textes d’entraînement pour certaines langues. Selon les développeurs et partisans de ces modèles multilingues, ils sont en mesure de tirer parti de leurs performances dans certaines langues « à ressources élevées » pour compenser un manque relatif de données d’entraînement dans les langues « à ressources faibles ».

Toutefois, les détracteurs de ces modèles multilingues pointent des disparités potentielles entre les langues à ressources élevées et les langues à ressources faibles en matière de précision dans la détection et l’application des violations. Malgré les progrès des technologies de traduction basées sur l’IA, il n’est pas certain qu’un modèle principalement formé sur des traductions automatiques en anglais puisse rendre compte, par exemple, des nuances culturelles ou humoristiques de l’amharique, une langue parlée par des dizaines de millions de personnes en Éthiopie.

Quelle que soit la manière dont ils sont conçus, si les nouveaux modèles d’IA doivent tenir la promesse d’une application plus précise et transparente, ces avantages doivent être répartis de manière appropriée entre les bases d’utilisateurs mondiales des plateformes. Les entreprises ne doivent pas évaluer les performances des modèles uniquement sur la base des résultats de tests de référence en anglais ou de tests agrégés dans lesquels l’anglais est surreprésenté, mais plutôt en tenant compte de la diversité de leur public mondial.


COMMENT L’AUTOMATISATION GOUVERNE LES PLATEFORMES

Les plateformes s’appuient de plus en plus sur l’automatisation pour la modération du contenu. Cela signifie que les systèmes automatisés, en appliquant des politiques et en identifiant et recommandant du contenu, décident de ce que les humains consomment ou ne consomment pas en tant qu’utilisateurs de médias sociaux.

Pour plus de clarté, lorsque l’on parle d’automatisation, il s’agit d’outils basés sur des règles et qui s’en tiennent à des tâches répétitives, comme signaler les publications contenant certains mots ou bloquer les utilisateurs qui enfreignent les règles de manière répétée. En comparaison, les outils de modération du contenu par IA sont plus adaptables. Ils utilisent l’apprentissage automatique et peuvent tenter de prendre des décisions basées sur l’analyse de modèles.

L’automatisation présente l’avantage d’être évolutive, mais la question qui se pose (du moins pour l’instant) est de savoir si ces outils peuvent concilier échelle et précision et éviter les biais systémiques. Cet équilibre est l’une des principales préoccupations dont les organisations de la société civile et les particuliers font souvent part au Conseil.

Contexte manquant : comment les machines entraînent une application
excessive ou insuffisante des politiques

Application excessive :

En l’absence de vérifications régulières et de mises à jour, les classificateurs automatiques peuvent souvent constituer un outil d'application peu efficace. Dans l’un de ses premiers cas, le Conseil a examiné une photo publiée sur Instagram pour accroître la sensibilisation aux symptômes du cancer du sein. L’image était rose, en accord avec « Octobre rose », une campagne internationale populaire au Brésil pour sensibiliser le public au cancer du sein. Huit photographies dans une seule image montraient des symptômes du cancer du sein avec des descriptions correspondantes telles qu’« ondulations », « amas » et « lésions ». Cinq des photographies comprenaient des mamelons féminins visibles et découverts. Les trois autres comprenaient des seins féminins, les mamelons étant soit hors champ, soit recouverts d'une main.

Malgré les nombreux signaux indiquant le caractère inoffensif et informatif de la publication, celle-ci a été détectée et supprimée par un classificateur d’apprentissage automatique entraîné à l’identification de la nudité dans les photos. Les Standards de la communauté de Meta interdisent généralement les mamelons féminins découverts, mais il existe des exceptions « à des fins éducatives ou médicales », notamment pour la sensibilisation au cancer du sein. Malheureusement, les systèmes automatisés de Meta n’ont pas réussi à reconnaître le contexte important, notamment les mots « Cancer du sein » qui apparaissaient en haut de l’image en portugais.

Le Conseil a recommandé à Meta d’améliorer sa détection automatique d’images avec texte superposé afin d’assurer que les publications de sensibilisation aux symptômes du cancer du sein ne soient pas signalées à tort pour révision. En réponse, Meta a amélioré les techniques d’Instagram pour identifier les signaux contextuels, y compris par le texte, qui sont pertinents pour le cancer du sein. L’entreprise a déployé ces changements en juillet 2021, et ces améliorations sont en place depuis. Pour donner un aperçu de l’impact de ces améliorations, au cours des 30 jours entre le 26 février et le 27 mars 2023, ces améliorations ont contribué à l’envoi pour examen manuel de 2 500 contenus supplémentaires qui auraient été supprimés auparavant.

Compte tenu du volume, de l’échelle et de la vitesse à laquelle les contenus sont diffusés sur les médias sociaux, le Conseil reconnaît que l’automatisation est essentielle à la détection des contenus susceptibles d’enfreindre les politiques. Toutefois, une application des politiques qui repose uniquement sur l’automatisation, en utilisant des technologies dont la capacité à comprendre le contexte est limitée, peut conduire à une application excessive qui interfère de manière disproportionnée avec la liberté d’expression.

Pour plus de clarté, l’automatisation fonctionne pour une grande partie de la modération du contenu, mais échoue souvent dans des situations de niche, d’importance critique, comme dans l’exemple expliqué précédemment. L’automatisation pourrait être plus efficace pour comprendre le contexte, mais une supervision et des ressources sont nécessaires pour affiner ces outils, comme dans le cas du cancer du sein. Les nouvelles générations d’IA et d’automatisation devraient inciter les plateformes à améliorer la qualité de l’application des politiques pour les thèmes de contenu importants, comme l’éducation à la santé, et dans les cas où les taux d’erreurs d’application sont élevés.

  • Sanctions : le Conseil est également préoccupé par les sanctions associées à une application excessive des politiques par l’automatisation. Des publications peuvent être supprimées à tort par l’automatisation, et les comptes concernés sanctionnés ou leur contenu rétrogradé. L’historique des violations d’un compte peut déterminer si des sanctions plus sévères sont imposées, y compris des restrictions de publication. En raison de la rapidité de l’automatisation, les violations peuvent s’accumuler et entraîner la désactivation de comptes. Le Conseil a réussi à pousser Meta à réformer son système de sanctions, notamment par l’envoi de nouvelles notifications expliquant pourquoi un contenu a été supprimé et par une plus grande transparence sur le système et ses sanctions. Toutefois, des améliorations sont encore possibles en ce qui concerne les violations les plus graves, qui peuvent avoir un impact sévère sur les journalistes et les militants. C’est pourquoi le Conseil a demandé une plus grande transparence sur les « sanctions graves » et continuera à le faire.

Application insuffisante :

Le langage codé n’a rien de nouveau ni d’inhabituel. Sur Internet, des termes comme « unalive » (non-vivant) peuvent signifier la mort, les groupes Facebook anti-vaccins sont appelés « dinner parties » (dîners) et les travailleurs du sexe sont désignés comme « accountants » (comptables). Les utilisateurs utilisent souvent des mots mal orthographiés (c0vid) ou des émojis, comme des tranches de pastèque lorsqu’ils font référence à la Palestine, afin d’échapper à la détection algorithmique et à l’application des politiques.

Lorsque les discours incitant à la haine sont codés de manière à échapper à la détection des systèmes automatisés, ils peuvent contribuer à un environnement en ligne dangereux.

Le Wilson Center, un groupe de réflexion basé à Washington D.C., qualifie les discours codés incitant à la haine de « créativité maligne » et affirme qu’il s’agit du plus grand obstacle à la détection et à l’application des politiques contre les attaques sexistes en ligne. Ils peuvent prendre la forme de satires ou de visuels contextuels dont la compréhension nécessite une connaissance de la situation, et les outils automatisés ne sont généralement pas calibrés pour les détecter.

Dans le cas de la publication en polonais ciblant les personnes transgenres, le Conseil de surveillance a renversé la décision initiale de Meta de laisser sur Facebook une publication dans laquelle un utilisateur s’en prenait aux personnes transgenres avec des propos violents incitant au suicide. La publication contenait une image d’un rideau à rayures aux couleurs bleu, rose et blanc du drapeau transgenre, avec un texte en polonais. Les systèmes automatisés de Meta n’ont pas remarqué des indices contextuels clés, notamment une référence au suicide (« rideaux qui se pendent »), un soutien à la mort des personnes transgenres (« nettoyage de printemps ») et même l’aveu, dans la biographie de l’utilisateur, qu’il est transphobe.

Dans ce cas, ce ne sont pas les politiques de Meta qui posent problème, mais leur application. Les systèmes automatisés chargés d’appliquer les politiques de contenu et de prioriser les éléments à réviser nécessitent un entraînement pour reconnaître le type de langage codé et les images contextuelles pris en compte dans ce cas. Il est extrêmement important que les plateformes vérifient l’exactitude de ces systèmes, en particulier en ce qui concerne les références codées.

Études de cas

Le Conseil a rendu ses décisions il y a plus de trois ans et a commencé à mieux comprendre l’incidence de ses recommandations sur les utilisateurs une fois qu’elles ont été implémentées. Les deux études de cas ci-dessous présentent des données montrant comment les changements que le Conseil a incité Meta à implémenter permettent aux utilisateurs d’ajouter du contexte que l’automatisation aurait pu manquer ou de modifier leur publication avant qu’une éventuelle décision de suppression automatisée ne soit prise.

Permettre aux utilisateurs de fournir un contexte

Les utilisateurs nous disent souvent que Meta a supprimé des publications appelant l’attention du public sur des discours incitant à la haine afin de condamner ces derniers, de sensibiliser ou de les discréditer, et ce, en raison de l’incapacité des systèmes automatisés (et parfois même des examinateurs manuels) à distinguer un discours incitant à la haine et une publication qui le condamne. Pour traiter cette problématique, le Conseil a recommandé à Meta de créer un moyen facile d’indiquer dans les appels effectués par les utilisateurs qu’une publication entrait dans l’une de ces catégories. Meta a accepté cette recommandation et cette fonctionnalité est déjà très appréciée des utilisateurs. 

En février 2024, Meta a reçu plus de sept millions d’appels de la part d’utilisateurs dont les contenus avaient été supprimés conformément aux règles de l’entreprise concernant les discours incitant à la haine. 8 utilisateurs sur 10 à l’origine des appels ont opté pour cette nouvelle option permettant de fournir davantage de contexte. 1 utilisateur sur 5 a indiqué que son contenu était destiné à sensibiliser, tandis qu'1 sur 3 a affirmé qu’il s’agissait d’une plaisanterie. Le Conseil estime que le fait de donner la parole aux gens - et de les écouter - peut aider Meta à prendre de meilleures décisions.

Des alertes qui permettent aux utilisateurs de prendre leurs propres décisions

Dans le cas des manifestations pro-Navalny en Russie, le Conseil a renversé la décision de Meta de supprimer un commentaire dans lequel un partisan du défunt leader de l’opposition russe Alexei Navalny qualifiait un autre utilisateur de « robot lâche ».

Meta avait initialement supprimé le commentaire parce qu’il utilisait le mot « lâche », interprété comme une déclaration à caractère négatif. Le Conseil a conclu que, même si la suppression du contenu pouvait être réputée conforme à une application stricte des Standards de la communauté relatifs à l’intimidation et au harcèlement, l’application de la politique n’a pas tenu compte du contexte global et a restreint de manière disproportionnée la liberté d’expression.

Dans le cadre de sa décision, le Conseil a recommandé que chaque fois que Meta supprime un contenu en raison d’une déclaration à caractère négatif qui ne représente qu’un seul mot ou une seule expression dans une publication plus importante, il convient d’en informer rapidement les utilisateurs afin qu’ils aient la possibilité d’apporter des modifications et de publier à nouveau le contenu.

En réponse à cette recommandation, lorsque les systèmes automatisés de Meta détectent que quelqu’un s’apprête à publier du contenu présentant une violation potentielle, l’entreprise en informe désormais les utilisateurs, afin qu’ils aient le temps de le réviser. Cette nouvelle alerte offre aux utilisateurs la possibilité de supprimer leur contenu et de le republier avec des modifications, plutôt que de le voir potentiellement supprimé.

Ce changement touche déjà des millions de personnes. Sur une période de 12 semaines en 2023, plus de 100 millions de contenus ont déclenché ces notifications aux utilisateurs, dont 17 millions concernaient la politique relative à l’intimidation et au harcèlement.

Modération du contenu lors des conflits

Le recours à l’automatisation peut s’avérer particulièrement difficile lorsque des situations d’urgence exercent une pression accrue sur ces systèmes. Il y a souvent un afflux de contenu en provenance de régions en conflit ou en crise. Les systèmes de modération du contenu utilisant l’IA et l’automatisation sont alors mis sous pression pour identifier les violations, ce qui risque d’augmenter le taux d’erreurs d’application des politiques.

Les systèmes de classification automatisés (classificateurs) de Meta utilisent diverses caractéristiques pour déterminer les mesures à prendre concernant le contenu, notamment l’évaluation de la probabilité d’une violation, la gravité de la violation potentielle et la viralité du contenu. Dans les premières décisions accélérées du Conseil en 2023 concernant le conflit entre Israël et Gaza, le Conseil a renversé la décision initiale de Meta de supprimer deux publications de ses plateformes.

Dans le cadre de sa réponse initiale au conflit, Meta a temporairement abaissé les seuils de confiance de ses classificateurs, qui identifient et suppriment les contenus enfreignant ses politiques sur le contenu violent et graphique, les discours incitant à la haine, la violence et l’incitation, ainsi que l’intimidation et le harcèlement. Ces mesures temporaires s’appliquent aux contenus provenant d’Israël et de Gaza, toutes langues confondues.

Cela signifie que Meta a utilisé ses outils automatisés pour supprimer de manière intensive tout contenu susceptible d’enfreindre ses politiques. Bien que cela ait réduit la probabilité que Meta ne parvienne pas à supprimer du contenu enfreignant les politiques et pouvant échapper à la détection, cela a également conduit à la suppression drastique de contenus légitimes liés au conflit.

Le cas de l’hôpital Al-Shifa, qui portait sur des vidéos d’une frappe militaire israélienne à Gaza, a montré comment le manque de supervision humaine lors d’une réponse à une crise peut conduire à la suppression incorrecte d’un discours qui pourrait être d’un intérêt public important. La décision initiale de supprimer ce contenu et le rejet de l’appel de l’utilisateur ont été pris automatiquement sur la base d’un score de classification, sans aucun examen manuel.

Un autre cas accéléré, qui impliquait une vidéo montrant des otages enlevés en Israël lors de l’attaque terroriste du 7 octobre par le Hamas, a mis en évidence les problèmes liés à la rétrogradation du contenu. Après l’identification de ce cas par le Conseil, Meta a annulé sa décision initiale de supprimer la publication et l’a restaurée avec un écran d’avertissement « marquer comme dérangeant ». La visibilité du contenu a ainsi été limitée aux personnes âgées de plus de 18 ans et il n’est plus recommandé aux autres utilisateurs de Facebook.

Supprimer un contenu des systèmes de recommandation revient à réduire la portée qu’il aurait pu avoir. La rétrogradation ou l’application d’autres types de « mesures non contraignantes » à ce type de publications, qui présentent un intérêt public et visent à attirer l’attention sur les violations des droits de l’homme, ne peut constituer une restriction indispensable ou proportionnelle à la liberté d’expression. Cela remet également en question l’opacité des décisions de pénaliser certaines publications, prises sans explication et de manière non transparente.

Ces cas soulignent que les plateformes doivent avoir une approche cohérente et transparente de la modération du contenu lors des conflits. Les entreprises de médias sociaux ne peuvent pas se permettre d’improviser les règles en période de crise. Un manque de transparence dans la prise de décision peut avoir un effet dissuasif sur les personnes qui craignent que leur contenu soit supprimé et leur compte pénalisé si elles commettent une erreur.

Systèmes automatiques d’application des politiques de contenu

Les banques de services de mise en correspondance du contenu multimédia de Meta, qui constituent un type de système automatique d’application des politiques de contenu, sont essentiellement des référentiels de contenus sur lesquels Meta a déjà pris une décision de modération. Ces bibliothèques de contenu, appelées « banques », identifient automatiquement les images et vidéos déjà évaluées par des examinateurs manuels comme enfreignant ou non les politiques de contenu, et agissent sur le contenu ultérieur en fonction des règles de cette banque.

Dans le cas du dessin sur la police colombienne, le Conseil a renversé la décision initiale de Meta de supprimer une publication sur Facebook d’une caricature décrivant la violence policière en Colombie. Le dessin a été ajouté à tort par un examinateur manuel à la banque des services de mise en correspondance du contenu multimédia de Meta, ce qui a entraîné une suppression massive et disproportionnée de l’image de la plateforme. Le Conseil a constaté que 215 utilisateurs avaient fait appel de ces suppressions, 98 % d’entre eux ayant obtenu gain de cause. Un taux de renversement aussi élevé aurait dû déclencher une révision, mais Meta n’avait toujours pas supprimé ce dessin de la banque avant que le cas ne soit soumis au Conseil.

Ce cas montre comment les systèmes automatiques de suppression de contenu peuvent amplifier l’impact de décisions erronées prises par des examinateurs manuels individuels. Les enjeux d’ajouts erronés à de tels systèmes sont particulièrement élevés lorsque, comme dans le cas présent, le contenu est un discours politique visant à protester contre des acteurs gouvernementaux.


Conclusion

Les entreprises de médias sociaux dépendent fortement de l’IA et des systèmes automatisés. Des rapports pertinents de ces dernières années montrent une augmentation massive de la quantité de contenus détectés et supprimés automatiquement des plateformes numériques. Jusqu’à présent, les outils les plus courants ne tiennent pas toujours compte du contexte et ne fournissent pas toujours une explication détaillée des raisons pour lesquelles le contenu a été supprimé.

Les nouveaux modèles d’IA générative présentent des améliorations potentielles majeures dans la capacité à détecter automatiquement les violations de lignes politiques spécifiques. Il est possible que les nouveaux outils d’IA générative soient mieux à même d’interpréter la signification du contenu et d’expliquer aux utilisateurs les mesures de mise en application. Mais il reste encore beaucoup à faire pour comprendre les biais et les erreurs de ces systèmes afin de mettre au point des processus de surveillance adéquats.

Bien que les entreprises de médias sociaux se soient montrées sensibles aux questions d’éthique de l’IA et aux défis liés à l’IA générative, elles doivent clairement expliquer comment elles entendent aligner leur développement et leurs réponses aux nouvelles technologies de l’IA sur leurs responsabilités en matière de respect des droits de l’homme. Il est important de souligner que la responsabilisation rigoureuse des tiers demeure essentielle, notamment sur les questions majeures telles que la lutte contre les risques systémiques liés à la liberté d’expression, l’accès aux données permettant d’évaluer la précision des systèmes de modération du contenu de manière globale (au-delà des cas de contenus spécifiques), ainsi que la transparence concernant les sanctions telles que les rétrogradations de contenus ou le « shadow banning » (bannissement furtif).

Remerciements

Ce document a été rédigé par un groupe de travail composé de membres du Conseil de surveillance.

Retour au leadership éclairé