Moderação de conteúdo em uma nova era de IA e automação

Introdução

As formas como as empresas de mídia social aplicam suas políticas de conteúdo e gerenciam os feeds dos usuários mudaram consideravelmente ao longo dos 20 anos desde que o Facebook foi lançado em 2004. Hoje, classificadores automatizados analisam o conteúdo e decidem o que deve ser mantido, retirado ou enviado para revisão humana. Além disso, os sistemas de inteligência artificial (IA) estudam o comportamento dos usuários para personalizar suas experiências online, ajustando a classificação das publicações.

A qualidade das ferramentas disponíveis para a criação e edição de conteúdo também melhorou muito. Desde a correção automática em teclados de smartphones até filtros faciais, edição de vídeos e chatbots gerativos, as ferramentas para gerar conteúdo dos usuários tornaram-se muito mais avançadas em comparação com o início das mídias sociais.

Essas mudanças representam uma transformação significativa que afeta bilhões de pessoas nas plataformas sociais. A ampla disponibilidade de novas ferramentas poderosas tem consequências profundas tanto para as decisões das empresas sobre como projetar, desenvolver e incorporar essas tecnologias em seus produtos quanto para as políticas de conteúdo aplicadas a material de alta qualidade gerado por usuários.

Atualmente, a maioria das decisões sobre moderação de conteúdo é feita por algoritmos, não por humanos, e essa tendência está se intensificando. A automação pode exacerbar erros humanos, pois os vieses presentes nos dados de treinamento e no design dos sistemas se tornam mais evidentes, e as decisões são tomadas rapidamente, limitando a possibilidade de revisão humana.

Além disso, os algoritmos de inteligência artificial podem reforçar preconceitos sociais existentes ou inclinar-se para certas divisões ideológicas. É crucial que as plataformas integrem a liberdade de expressão e os princípios de direitos humanos em suas ferramentas desde o início e de maneira deliberada, considerando os enormes desafios institucionais e tecnológicos de ajustar sistemas que já operam em grande escala.

O Comitê de Supervisão, um órgão independente composto por 21 especialistas em direitos humanos de diferentes partes do mundo, examinou casos representativos sobre como as políticas de conteúdo da Meta são aplicadas por meio de algoritmos de IA e técnicas automatizadas. A abordagem do Comitê, orientada por princípios de direitos humanos, vai além de simplesmente determinar quais conteúdos devem ser mantidos ou removidos. Nossos estudos analisam detalhadamente o design e a funcionalidade dos sistemas automatizados da Meta, com o objetivo de esclarecer os fatores que influenciam as decisões de moderação de conteúdo e de identificar como essas ferramentas podem ser melhoradas.

Esses estudos abordam questões cruciais, como os sistemas automatizados de remoção de conteúdo, incluindo o que a Meta denomina bancos de serviços de correspondência de mídia; as políticas referentes a imagens explícitas geradas por IA e outras mídias manipuladas; e as dificuldades da IA e dos sistemas automatizados em compreender o contexto, o que pode levar a aplicações inadequadas das regras. Com base em nosso portfólio de casos, no engajamento contínuo com a sociedade civil e nas áreas onde o Comitê promoveu mudanças efetivas nas plataformas da Meta, este artigo compartilha as principais lições aprendidas para a indústria, reguladores, especialistas e o público em geral.

Lições importantes para o setor

Para combater a proliferação de imagens íntimas deepfake nas mídias sociais, as plataformas devem focar suas políticas na identificação da falta de consentimento por parte das vítimas desse tipo de conteúdo. A geração ou manipulação de conteúdo por IA deve ser vista como um indicativo de que essas imagens podem não ter o devido consentimento.
As plataformas devem utilizar a automação para ajudar os usuários a compreender melhor as políticas e evitar a remoção incorreta de seu próprio conteúdo. Isso pode ser feito, por exemplo, por meio de notificações informativas que orientem os usuários. Além disso, as pessoas têm o direito de saber por que seu conteúdo foi removido e se a decisão foi tomada por um ser humano ou por um sistema automatizado. Quando um conteúdo é removido, os usuários também devem ter a oportunidade de fornecer contexto adicional sobre a publicação. Isso permite que os moderadores, sejam humanos ou sistemas de IA, considerem aspectos que podem ter sido mal interpretados, como sátira, conscientização ou condenação. O Comitê pressionou a Meta a introduzir novos recursos com esse objetivo, e essas inovações já estão beneficiando milhões de usuários.
Os avanços nos modelos de IA generativa devem ser distribuídos de maneira justa entre as bases de usuários globais das empresas de mídia social, e não apenas concentrados em países de língua inglesa ou mercados ocidentais, onde as plataformas frequentemente alocam a maioria de seus recursos. Essas melhorias podem incluir maior transparência, um registro mais preciso do contexto e uma identificação mais detalhada das violações. Isso é especialmente importante, pois a falta de competência na interpretação de linguagem e contexto pode resultar na aplicação excessiva ou insuficiente das políticas.
Os sistemas automatizados de moderação e curadoria devem ser avaliados de forma rigorosa e contínua quanto ao seu desempenho, especialmente em relação a usuários mais vulneráveis e em maior risco. À medida que novos modelos são implementados, é fundamental garantir que eles não exacerbem preconceitos sociais existentes que possam prejudicar grupos marginalizados e outros.
Especialistas globais em direitos humanos, liberdade de expressão e ética devem ser consultados desde o início ao projetar e implementar novas ferramentas de moderação de conteúdo baseadas em IA. Além disso, as recomendações de redução de riscos e outras proteções sugeridas por esses especialistas devem ser incorporadas ao design das ferramentas.
A transparência é primordial. Pesquisadores independentes de todo o mundo devem ter acesso a dados que lhes permitam avaliar o impacto da moderação algorítmica de conteúdo, curadoria de feeds e ferramentas de IA para conteúdo gerado por usuários.
Essas informações podem ser essenciais para enfrentar a desinformação e a informação incorreta. Além disso, as plataformas devem rotular claramente o conteúdo que foi significativamente alterado e que pode induzir ao erro, ao mesmo tempo em que devem alocar recursos adequados para a revisão humana que sustenta essas práticas.

DESAFIOS PARA MODERAR CONTEÚDO NA ERA DA IA GENERATIVA

Há muitos motivos para estar animado e otimista em relação à IA generativa. Sem dúvida, a IA generativa trouxe benefícios significativos para criadores de conteúdo e empresas, oferecendo melhores recursos para edição de fotos, tradução de idiomas e chatbots de atendimento ao cliente.

Como a União Americana pelas Liberdades Civis (ACLU) ressaltou em um comentário público ao Comitê, nem toda mídia manipulada é intrinsecamente prejudicial: “Pelo contrário, há formas de mídia manipulada que enriquecem o discurso público — incluindo paródias e sátiras... assim como discursos que, apesar de não serem humorísticos e declaradamente falsos, ainda assim são ilustrativos ou provocativos.” As plataformas têm a responsabilidade de proteger esse tipo de discurso.

No entanto, a IA generativa, incluindo modelos de linguagem ampla que criam texto, áudio e imagens, pode contribuir para danos na Internet, como abuso sexual baseado em imagens ou conteúdo que engana as pessoas sobre como ou quando votar. Talvez o aspecto mais preocupante dessas novas ferramentas baseadas em IA seja a sua facilidade de produção, que permite uma geração rápida e em grande escala, tanto em termos de qualidade quanto de quantidade. Conteúdos enganosamente realistas podem ser criados em segundos, mesmo por pessoas com pouca experiência.

Enquanto os usuários utilizam a IA para criar conteúdo, as plataformas a empregam para moderar o material publicado. À medida que essa nova tecnologia é implementada, as empresas de mídia social devem monitorar se essas ferramentas estão exacerbando desequilíbrios existentes que afetam negativamente a sociedade civil. Pesquisadores sugeriram que a moderação de conteúdo poderia ser aprimorada com o uso de novas ferramentas de IA generativa. No entanto, isso pode implicar que as plataformas estejam empregando modelos de IA generativa para enfrentar problemas de moderação de conteúdo que, em alguns casos, são ampliados por essa mesma tecnologia.

Esses sistemas precisarão demonstrar seu valor em áreas críticas em que os modelos anteriores encontraram dificuldades, como entender nuances culturais e linguísticas no conteúdo. O acesso a dados para pesquisas independentes é fundamental para avaliar o desempenho desses sistemas. Possíveis soluções foram sugeridas para permitir que a sociedade civil avalie os preconceitos subjacentes que afetam essas ferramentas de IA generativa, uma necessidade crescente à medida que esses sistemas são adotados para a moderação de conteúdo.

Abuso sexual baseado em imagens

Embora o abuso sexual baseado em imagens não seja uma novidade, a proliferação de ferramentas de IA generativa marca uma nova era de assédio baseado em gênero. Com pouco ou nenhum custo, qualquer pessoa com uma conexão à Internet e uma foto de alguém pode criar imagens sexualizadas dessa pessoa, que podem ser divulgadas sem o seu consentimento ou conhecimento. Pesquisadores especializados em abuso sexual online apontam que os danos causados por imagens íntimas deepfake podem ser tão graves quanto aqueles associados a imagens sexuais autênticas compartilhadas sem consentimento.

A grande maioria desse conteúdo é direcionada a mulheres e meninas, abrangendo desde adolescentes até figuras públicas, como políticos e celebridades. Em um comentário público ao Comitê, o Centro para Democracia e Tecnologia destacou que os deepfakes direcionados às mulheres na política são “destinados a desafiar, controlar e atacar sua presença em espaços de autoridade pública”.

Simultaneamente, a crescente proliferação de imagens íntimas deepfake como uma forma de bullying entre adolescentes levanta sérias preocupações sobre a saúde mental das meninas. O New York Times relatou que essas imagens deepfake se tornaram uma forma de assédio capaz de causar danos emocionais graves, prejudicar reputações e ameaçar a segurança física. Um caso de destaque envolveu um estudante de ensino médio nos Estados Unidos que foi alvo de colegas de classe usando esse tipo de conteúdo.

Especialistas consultados pelo Comitê também destacaram que esse tipo de conteúdo pode ser especialmente prejudicial em comunidades com valores sociais conservadores. Por exemplo, uma jovem de 18 anos foi assassinada pelo pai e pelo tio na região isolada de Kohistan, no Paquistão, após uma fotografia digitalmente alterada dela com um homem ter se tornado viral.

Um comentário público da ONG indiana Breakthrough Trust aponta que, na Índia, as “mulheres frequentemente enfrentam vitimização secundária” ao buscar serviços policiais ou judiciais. Elas costumam ser questionadas sobre o motivo de terem postado fotos na Internet, mesmo quando essas imagens são deepfakes geradas sem seu consentimento.

Em julho de 2024, o Comitê emitiu uma decisão sobre dois casos envolvendo imagens de mulheres nuas criadas e manipuladas por IA, uma das quais se parecia com uma figura pública indiana e a outra com uma figura pública dos EUA. Embora a Meta tenha removido do Facebook a publicação que envolvia a figura pública dos EUA, a publicação relacionada à figura pública da Índia só foi retirada após o Comitê selecionar o caso. Nesse cenário, a remoção é crucial para proteger os indivíduos do compartilhamento de imagens sexuais geradas sem o consentimento da pessoa. O Comitê observou que simplesmente rotular imagens íntimas deepfake não é suficiente, uma vez que os danos decorrem do compartilhamento e da visualização dessas imagens, e não apenas da deturpação de sua autenticidade.

É preocupante que a imagem que se assemelha a uma figura pública indiana só tenha sido adicionada ao banco de dados do Serviço de Correspondência de Mídia (detalhes abaixo) pela Meta após o Comitê ter questionado a respeito. A Meta alegou que adicionou a imagem que se assemelha à figura pública dos EUA ao banco de dados com base em relatos da mídia, mas não houve cobertura semelhante no caso da figura pública indiana. Isso é preocupante porque muitas vítimas de imagens íntimas deepfake não consensuais não recebem atenção da mídia e, portanto, são forçadas a lidar com a disseminação dessas imagens por conta própria ou a relatar cada incidente individualmente.

Embora a cobertura midiática possa ser um indicador útil de que o conteúdo não é consensual para figuras públicas, esse método não é eficaz para proteger indivíduos particulares. Assim, as empresas de mídia social não devem depender exclusivamente da cobertura de notícias. As plataformas de mídia social devem esclarecer em suas políticas quais sinais de falta de consentimento levariam à remoção de conteúdos desse tipo e assegurar que existam mecanismos acessíveis para que os usuários possam denunciar essas situações.

Diante disso, qualquer contexto que sugira que imagens íntimas ou sexualizadas em uma publicação foram geradas por IA, editadas ou manipuladas de alguma forma deve ser considerado um sinal de falta de consentimento. Estabelecer que a geração ou manipulação de imagens íntimas por IA seja automaticamente interpretada como uma indicação de falta de consentimento representaria um avanço significativo, especialmente considerando a rápida proliferação de deepfakes.

Por fim, as plataformas de mídia social devem agir rapidamente para identificar e remover esse tipo de conteúdo e facilitar o processo de denúncia para os usuários. Tanto a Índia quanto os EUA estão considerando leis e anunciaram novos planos para regulamentar os deepfakes. No entanto, o Comitê recebeu muitos comentários públicos enfatizando que as plataformas devem ser a primeira linha de defesa, uma vez que os sistemas legais podem não ser ágeis o suficiente para conter a disseminação desse tipo de conteúdo.

Eleições

Embora se tenha sugerido que o uso tradicional da IA, como algoritmos de classificação, contribua para a polarização política, a ascensão da IA generativa abre novas possibilidades para abusos durante as eleições.

Em Taiwan, um áudio deepfake apareceu no YouTube de um político apoiando outro candidato, o que nunca aconteceu. No Reino Unido, clipes de áudio e vídeo falsos foram direcionados a políticos de diversos espectros partidários. Na Índia, onde mais de meio bilhão de eleitores participaram das eleições de 2024, os cidadãos foram alvo de uma grande quantidade de deepfakes políticos, incluindo apoios falsos de celebridades e políticos falecidos.

O Comitê investigou um caso específico envolvendo um vídeo manipulado do presidente dos EUA, Joe Biden. Nesse vídeo, uma filmagem dele colocando um adesivo “Eu votei” em sua neta foi alterada para dar a impressão de que ele estava tocando-a de forma inapropriada. É importante notar que o vídeo em questão não foi modificado por IA, mas sim por meio de um loop na parte em que a mão do presidente entra em contato com o peito da neta.

O fato de o conteúdo ter sido manipulado por ferramentas de edição mais simples destaca como a diversidade de tecnologias disponíveis — seja IA generativa ou outros métodos — torna a precisão do método de manipulação menos relevante que o risco de enganar os espectadores. Assim, as empresas de mídia social devem direcionar suas políticas de conteúdo para proteger contra os danos que buscam prevenir, em vez de se concentrar apenas na tecnologia usada para criar o conteúdo.

O Comitê também concluiu que, em certos casos, as plataformas poderiam mitigar os danos causados pela desinformação sobre a autenticidade do conteúdo ao adicionar um rótulo informativo. Esses rótulos fornecem contexto para os usuários, permitindo que formem suas próprias conclusões sobre o conteúdo. Essa abordagem é também menos intrusiva que a remoção de conteúdo, permitindo que mais material permaneça disponível e ajudando as empresas de mídia social a proteger a liberdade de expressão dos usuários.

Após a decisão do Comitê, a Meta anunciou planos para começar a rotular uma gama mais ampla de imagens, vídeos e áudios alterados por IA. Essa é uma recomendação clara que outras plataformas devem considerar adotar.

Disparidade linguística

Com a implementação de novas gerações de IA pelas plataformas de mídia social, é crucial que as empresas assegurem que essa tecnologia seja justa e equitativa para todos os usuários. Nossas investigações revelaram que os recursos de moderação de conteúdo nem sempre são distribuídos de maneira justa. Por exemplo, no parecer consultivo de política do Comitê sobre desinformação relacionada à COVID-19, as partes interessadas apontaram que a maioria dos idiomas, além do inglês, tem cobertura de verificação de fatos significativamente menor. Da mesma forma, em outro caso relacionado à cobertura jornalística sobre o Taliban, o Brennan Center for Justice expressou preocupação no seguinte comentário público: “As ferramentas automatizadas da Meta frequentemente falham em considerar o contexto, especialmente em idiomas que não sejam o inglês.”

A disparidade linguística é uma preocupação central à medida que as plataformas tentam integrar grandes modelos de IA de linguagem. Algumas empresas de tecnologia estão adotando uma abordagem independente de idioma em seus grandes modelos de linguagem, devido à limitação de textos de treinamento em certos idiomas. De acordo com os desenvolvedores e proponentes desses modelos multilíngues, eles conseguem melhorar o desempenho em alguns idiomas de “altos recursos” para compensar a falta relativa de dados de treinamento em idiomas de “baixos recursos”.

No entanto, os críticos desses modelos multilíngues destacam possíveis discrepâncias na precisão na detecção e aplicação de violações entre idiomas com diferentes quantidades de recursos. Apesar dos avanços na tecnologia de tradução usando IA, ainda é incerto como um modelo predominantemente treinado em inglês consegue capturar as sutilezas culturais e humorísticas de idiomas como o amárico, que é falado por milhões na Etiópia.

Independentemente da construção desses modelos, para que eles cumpram a promessa de uma aplicação mais precisa e transparente, esses benefícios devem ser equitativamente distribuídos entre os usuários das diversas regiões globais das plataformas. As empresas não devem avaliar o desempenho do modelo apenas com base em benchmarks em inglês ou testes agregados que super-representam o inglês. Em vez disso, devem considerar a diversidade e a amplitude de seus públicos globais ao realizar essas avaliações.

COMO A AUTOMAÇÃO REGE AS PLATAFORMAS

As plataformas estão cada vez mais usando a automação para moderação de conteúdo. Isso significa que os sistemas automatizados, ao aplicar políticas e identificar ou recomendar conteúdo, estão essencialmente decidindo o que os usuários de mídias sociais consomem.

Para esclarecer, a automação aqui inclui não apenas ferramentas baseadas em regras, que realizam tarefas repetitivas como sinalizar publicações com determinadas palavras ou bloquear usuários que violam as regras frequentemente. Comparadas às ferramentas baseadas em regras, as ferramentas de moderação de conteúdo com IA são mais flexíveis. Elas utilizam aprendizado de máquina para analisar padrões e tomar decisões.

A principal vantagem da automação é a sua capacidade de escalar, mas atualmente há preocupações sobre se essas ferramentas conseguem equilibrar essa escala com precisão e evitar vieses sistêmicos. Esse equilíbrio é uma das principais preocupações frequentemente levadas ao Comitê por organizações da sociedade civil e indivíduos.

Ausência de contexto: como as máquinas causam a aplicação
excessiva ou insuficiente da lei

Aplicação excessiva da lei:

Sem auditorias e retreinamentos regulares, os classificadores automáticos podem se tornar ferramentas de fiscalização pouco eficazes. Em um dos primeiros casos analisados, o Comitê revisou uma foto publicada no Instagram com o objetivo de aumentar a conscientização sobre os sintomas do câncer de mama. A imagem era rosa, remetendo a “Outubro Rosa”, uma campanha internacional bem conhecida no Brasil para promover a conscientização sobre o câncer de mama. A imagem continha oito fotografias dentro de um único quadro, mostrando sintomas de câncer de mama com descrições como “ondulações”, “nódulos” e “feridas”. Cinco dessas fotografias mostravam mamilos femininos visíveis e expostos. As três restantes incluíam seios femininos, com os mamilos não enquadrados na imagem ou cobertos por uma mão.

Apesar dos inúmeros sinais indicando a natureza inofensiva e informativa da publicação, ela foi detectada e removida por um classificador de aprendizado de máquina treinado para identificar nudez em fotos. Os Padrões da Comunidade da Meta geralmente proíbem mamilos femininos expostos, mas há permissões para “fins educacionais ou médicos”, incluindo a conscientização sobre o câncer de mama. Infelizmente, os sistemas automatizados da Meta não conseguiram identificar contextos importantes, como a expressão “Câncer de Mama”, que estava destacada na parte superior da imagem em português.

O Comitê recomendou que a Meta aprimorasse a detecção automática de imagens com texto sobreposto para evitar que publicações de conscientização sobre sintomas de câncer de mama fossem incorretamente sinalizadas para revisão. Como resposta, a Meta aprimorou as técnicas do Instagram para reconhecer sinais contextuais, incluindo textos relevantes ao câncer de mama. Essas mudanças foram implementadas em julho de 2021 e têm sido aplicadas desde então. Para ilustrar o impacto dessas melhorias, entre 26 de fevereiro e 27 de março de 2023, as novas técnicas resultaram no envio de mais 2.500 partes de conteúdo para revisão humana, que antes teriam sido removidas automaticamente.

Considerando o volume, a escala e a velocidade com que o conteúdo circula nas mídias sociais, o Comitê reconhece que a automação é essencial para a detecção de material potencialmente violador. No entanto, confiar exclusivamente na automação, especialmente quando as tecnologias têm limitações na compreensão do contexto, pode levar a uma aplicação excessiva da lei que prejudica desproporcionalmente a liberdade de expressão.

Para esclarecer, embora a automação seja eficaz na moderação de conteúdo na maioria dos casos, ela frequentemente falha em situações específicas e importantes, como demonstrado anteriormente. A automação poderia ser aprimorada para compreender melhor o contexto, mas isso requer supervisão e recursos para ajustar essas ferramentas, como evidenciado pelo caso do câncer de mama. Com o avanço das gerações de IA e automação, as plataformas devem se comprometer a melhorar a qualidade da aplicação das normas, especialmente em temas importantes como educação em saúde, em que frequentemente ocorrem altas taxas de erros na moderação.

Penalidades: O Comitê também está preocupado com as penalidades associadas à fiscalização excessiva por meio da automação. A automação pode levar à remoção indevida de publicações, resultando em sanções às contas afetadas ou na redução da visibilidade do seu conteúdo. O histórico de violações de uma conta pode influenciar a aplicação de penalidades mais severas, como restrições à publicação. Devido à velocidade da automação, as violações podem se acumular rapidamente, podendo levar à desativação de contas. O Comitê conseguiu influenciar a Meta a reestruturar o sistema de notificações, incluindo a introdução de novas mensagens que explicam as razões para a remoção de conteúdo e oferecem maior transparência sobre o sistema e as penalidades aplicadas. No entanto, há mais espaço para melhorias em relação às violações mais graves, que podem impactar severamente jornalistas e ativistas. É por isso que o Comitê pediu maior transparência sobre “greves severas” e continuará fazendo isso.

Aplicação insuficiente da lei:

A linguagem codificada não é nada novo ou incomum. Na Internet, expressões como “não vivo” podem significar morto, grupos antivacinas do Facebook são chamados de “jantares” e profissionais do sexo são chamados de “contadores”. Além disso, usuários frequentemente cometem erros de ortografia (como “c0vid”) ou usam emojis, como o de melancia para se referir à Palestina, para burlar a detecção de algoritmos.

No entanto, quando o discurso de ódio é codificado para escapar da detecção automática, ele pode criar um ambiente online perigoso.

O Wilson Center, um think tank sediado em Washington D.C., descreve essa linguagem de ódio codificada como “criatividade maligna” e considera que ela representa o maior desafio para a detecção e implementação de medidas contra ataques baseados em gênero na Internet. Isso pode se manifestar na forma de sátira ou por meio de contextos visuais que exigem conhecimento situacional para serem compreendidos, algo que as ferramentas automatizadas frequentemente não estão calibradas para detectar.

No caso da publicação do Comitê em polonês que visava pessoas trans, o Comitê de Supervisão decidiu reverter a decisão inicial da Meta, que havia permitido uma publicação no Facebook na qual um usuário direcionava discurso violento contra pessoas transgênero e defendia o suicídio. A publicação incluía uma imagem com uma cortina listrada nas cores azul, rosa e branco da bandeira transgênero, acompanhada de texto em polonês. Os sistemas automatizados da Meta falharam em captar pistas contextuais importantes, como a referência ao suicídio (“cortinas que se penduram sozinhas”), o apoio à morte de pessoas trans (“limpeza de primavera”) e até mesmo uma declaração na biografia do usuário admitindo sua transfobia.

A questão principal neste caso não era a política da Meta, mas sim a sua aplicação. Os sistemas automatizados que aplicam políticas de conteúdo e priorizam publicações para revisão precisam ser treinados para reconhecer a linguagem codificada e as imagens baseadas em contexto, como os apresentados neste caso. É crucial que as plataformas realizem auditorias rigorosas da precisão desses sistemas, especialmente no que se refere às referências codificadas.

Estudos de caso

O Comitê está há mais de três anos emitindo decisões e tem aprimorado sua compreensão sobre o impacto das suas recomendações nos usuários quando essas são colocadas em prática. Os dois estudos de caso abaixo fornecem dados que ilustram como as mudanças que o Comitê influenciou a Meta a implementar possibilitam que os usuários adicionem contexto que a automação pode não ter captado ou editem suas publicações antes que uma decisão automatizada de remoção seja tomada.

Permitir que os usuários forneçam contexto

Muitos usuários nos relatam que a Meta removeu publicações que denunciavam discurso de ódio, seja para condená-lo, ridicularizá-lo ou gerar conscientização sobre ele, devido à incapacidade dos sistemas automatizados (e às vezes dos revisores humanos) de distinguir essas publicações do próprio discurso de ódio. Para resolver isso, o Comitê recomendou que a Meta criasse uma maneira simples para os usuários indicarem, durante a apelação, que a publicação se encaixa nessas categorias. A Meta concordou, e o recurso já está tendo um forte engajamento dos usuários.

Em fevereiro de 2024, a Meta recebeu mais de 7 milhões de apelações de usuários cujo conteúdo foi removido de acordo com suas políticas de discurso de ódio. 80% dos participantes escolheram usar essa nova opção para fornecer contexto adicional. Um em cada cinco desses usuários indicou que o objetivo do conteúdo era “aumentar a conscientização”, enquanto um em cada três afirmou que “era uma piada”. O Comitê acredita que dar voz às pessoas — e escutá-las — pode ajudar a Meta a tomar decisões mais informadas.

Alertas que capacitam os usuários a tomar as próprias decisões

No caso dos Protestos pró-Navalny na Rússia, o Comitê reverteu a decisão da Meta de remover um comentário em que um apoiador do falecido líder da oposição russa Alexei Navalny chamava outro usuário de “bot covarde”.

Inicialmente, a Meta removeu o comentário devido ao uso da palavra “covarde”, que foi interpretada como uma declaração de caráter negativo. O Comitê concluiu que, embora a remoção estivesse de acordo com uma interpretação estrita do Padrão da Comunidade sobre Bullying e Assédio, a decisão não levou em conta o contexto mais amplo e restringiu desproporcionalmente a liberdade de expressão.

Como parte da sua decisão, o Comitê recomendou que, sempre que a Meta remover conteúdo baseado em uma alegação de caráter negativo que seja apenas uma palavra ou frase dentro de uma publicação maior, a empresa deve notificar imediatamente o usuário. Dessa forma, o usuário pode modificar e republicar o material.

Em resposta a essa recomendação, os sistemas automatizados da Meta agora identificam quando alguém está prestes a publicar conteúdo que pode violar as diretrizes e notificam o usuário para que ele possa revisar o material antes da publicação. Essa nova notificação dá aos usuários a chance de editar e republicar seu conteúdo, evitando assim a possível remoção.

Essa atualização já está impactando milhões de pessoas. Durante um período de 12 semanas em 2023, mais de 100 milhões de conteúdos geraram essas notificações para os usuários, e 17 milhões desses casos estavam associados às políticas de intimidação e assédio.

Moderação de conteúdo durante conflitos

A dependência da automação pode se tornar bastante problemática em situações de emergência, quando o estresse sobre os sistemas é significativamente maior. Frequentemente, há um grande volume de conteúdo proveniente de regiões afetadas por conflitos ou crises. Isso exerce pressão sobre os sistemas de moderação baseados em IA, que são responsáveis por identificar possíveis violações, aumentando o risco de erros na aplicação das políticas.

Os classificadores automatizados da Meta utilizam diversos critérios para determinar a ação adequada em relação ao conteúdo, como a probabilidade de violação, a gravidade da violação potencial e o grau de viralização do conteúdo. Nas primeiras decisões aceleradas do Comitê em 2023 sobre o conflito entre Israel e Gaza, o Comitê reverteu a decisão original da Meta de remover duas publicações das plataformas.

Como resposta inicial ao conflito, a Meta havia temporariamente reduzido os limites de confiança para seus classificadores responsáveis por identificar e remover conteúdos que violam suas políticas de Conteúdo Violento e Gráfico, Discurso de Ódio, Violência e Incitação, e Bullying e Assédio. Medidas temporárias foram implementadas para o conteúdo originado de Israel e Gaza em todos os idiomas,

o que significou que a Meta aplicou suas ferramentas automatizadas para remover agressivamente qualquer material que pudesse violar suas políticas. Embora essa abordagem tenha diminuído a chance de que conteúdo violador passasse despercebido, também resultou na remoção excessiva de material não violador relacionado ao conflito.

O caso do Hospital Al-Shifa, que envolveu a remoção de vídeos de um ataque durante operações militares israelenses em Gaza, ilustrou como a ausência de supervisão humana durante uma crise pode levar à exclusão indevida de conteúdos de interesse público relevante. A decisão inicial de remover esse conteúdo e a rejeição do recurso do usuário foram tomadas automaticamente com base em uma pontuação gerada pelo classificador, sem qualquer revisão humana.

Outro caso acelerado envolveu um vídeo mostrando reféns sequestrados de Israel durante o ataque terrorista de 7 de outubro pelo Hamas. Esse incidente levantou preocupações sobre o rebaixamento de conteúdo. Após o Comitê analisar o caso, a Meta reverteu sua decisão original de remover a publicação e a restaurou, mas com um aviso de “marcar como perturbador”. Isso limitou a visibilidade do conteúdo a usuários maiores de 18 anos e o retirou das recomendações para outros usuários do Facebook.

A remoção do conteúdo dos sistemas de recomendação diminui significativamente seu alcance potencial. Aplicar ações brandas, como rebaixar ou limitar a visibilidade de publicações que têm interesse público e destacam abusos de direitos humanos, pode não ser uma restrição necessária ou proporcional à liberdade de expressão. Além disso, isso levanta questões sobre a falta de transparência nas decisões de rebaixamento, que muitas vezes são tomadas sem explicações claras.

Esses casos destacam a necessidade de uma abordagem consistente e transparente na moderação de conteúdo durante conflitos. As empresas de mídia social não podem se permitir improvisar regras em momentos de crise. A falta de transparência nas decisões pode desmotivar as pessoas, que podem temer que seu conteúdo seja removido ou que sua conta seja penalizada caso cometam algum erro.

Sistemas automáticos de aplicação de conteúdo

Os bancos do Serviço de Correspondência de Mídia da Meta, que são sistemas automáticos de moderação de conteúdo, funcionam como repositórios de material sobre o qual a Meta já tomou decisões. Essas bibliotecas de conteúdo — os “bancos” — identificam automaticamente imagens e vídeos já designados por revisores humanos como violadores ou não das políticas de conteúdo e agem no conteúdo subsequente com base nas regras desse banco.

No caso da caricatura da polícia colombiana, o Comitê reverteu a decisão original da Meta de remover uma publicação no Facebook que retratava a violência policial na Colômbia. A caricatura foi erroneamente adicionada ao banco de Serviço de Correspondência de Mídia da Meta por um revisor humano, resultando na remoção em massa e desproporcional da imagem da plataforma. O Comitê constatou que 215 usuários contestaram essas remoções, e 98% dessas contestações foram bem-sucedidas. Uma taxa tão alta de reversões deveria ter levado a uma revisão do caso, mas a Meta só removeu a charge do banco depois que o Comitê a analisou.

Esse episódio demonstra como sistemas automáticos de remoção de conteúdo podem intensificar o impacto de decisões errôneas feitas por revisores humanos individuais. O risco de adições equivocadas a esses sistemas é particularmente alto quando, como nesse caso, o conteúdo envolve discurso político ou protestos contra autoridades governamentais.

Conclusão

As empresas de mídia social usam bastante IA e sistemas automatizados. Relatórios recentes indicam um aumento significativo na quantidade de conteúdo detectado e removido automaticamente das plataformas digitais. Até o momento, as ferramentas mais comuns ainda têm dificuldades em considerar o contexto e frequentemente não fornecem uma explicação detalhada sobre o motivo da remoção de um conteúdo.

No entanto, novos modelos de IA generativa oferecem grandes promessas de melhorar a capacidade de identificar automaticamente violações das políticas específicas. Essas novas ferramentas de IA generativa podem potencialmente interpretar o significado do conteúdo e fornecer explicações aos usuários sobre as ações tomadas. No entanto, ainda há muito a ser feito para entender os vieses e erros desses sistemas e para desenvolver processos de supervisão adequados.

Embora as empresas de mídia social tenham demonstrado disposição para enfrentar as preocupações e desafios éticos associados à IA generativa, é crucial que elas articulem claramente como pretendem alinhar o desenvolvimento e a implementação dessas novas tecnologias com suas responsabilidades de respeitar os direitos humanos. Além disso, a responsabilização rigorosa de terceiros continua sendo fundamental, especialmente em áreas críticas como a proteção de riscos sistemáticos da liberdade de expressão, o acesso a dados que permitam avaliar a eficácia geral dos sistemas de moderação de conteúdo (e não apenas casos específicos) e a transparência em relação a penalidades como o rebaixamento de conteúdo ou “banimento oculto”.

Reconhecimentos

Este artigo foi escrito por um grupo de trabalho de membros do Comitê de Supervisão.

Download the Paper

Retornar à liderança inovadora