Anshumali Shrivastava é professor assistente de ciência da computação na Universidade de Rice. (Foto de Jeff Fitlow/Universidade do Arroz) Crédito: Jeff Fitlow/Universidade do Arroz

Anshumali Shrivastava é professor assistente de ciência da computação na Universidade de Rice. (Foto de Jeff Fitlow/Universidade do Arroz) Crédito: Jeff Fitlow/Universidade do Arroz

Os pesquisadores da Rice University descobriram uma maneira mais eficiente para as empresas de mídia social evitarem que a desinformação se espalhe on-line usando filtros probabilísticos treinados com inteligência artificial.

A nova abordagem da digitalização das mídias sociais é delineada em um estudo apresentado hoje na Conferência sobre Sistemas de Processamento de Informações Neurais (NeurIPS 2020), apenas on-line, pelo cientista da computação Anshumali Shrivastava e pelo estudante de pós-graduação em estatística Zhenwei Dai. Seu método aplica o aprendizado de máquinas de forma mais inteligente para melhorar o desempenho dos filtros Bloom, uma técnica amplamente utilizada e desenvolvida há meio século.

Usando bancos de dados de testes de notícias falsas e vírus de computador, Shrivastava e Dai mostraram que seu Adaptive Learned Bloom Filter (Ada-BF) exigia 50% menos memória para atingir o mesmo nível de desempenho que os filtros Bloom aprendidos.

Para explicar sua abordagem de filtragem, Shrivastava e Dai citaram alguns dados do Twitter. O gigante da mídia social revelou recentemente que seus usuários adicionaram cerca de 500 milhões de tweets por dia, e os tweets normalmente apareciam online um segundo depois de um usuário ter enviado um hit.

“Na época da eleição, eles estavam recebendo cerca de 10.000 tweets por segundo, e com uma latência de um segundo que é cerca de seis tweets por milissegundo”, disse Shrivastava. “Se você quiser aplicar um filtro que leia cada tweet e sinalize os que têm informações conhecidas como falsas, seu mecanismo de sinalização não pode ser mais lento do que seis milissegundos ou você ficará para trás e nunca mais alcançará”.

Se os tweets sinalizados forem enviados para uma revisão manual adicional, também é de vital importância ter uma baixa taxa de falsos positivos. Em outras palavras, você precisa minimizar quantos tweets genuínos são sinalizados por engano.

“Se sua taxa de falsos positivos é tão baixa quanto 0,1%, mesmo assim você está sinalizando erroneamente 10 tweets por segundo, ou mais de 800.000 por dia, para revisão manual”, disse ele. “Esta é precisamente a razão pela qual a maioria das abordagens tradicionais apenas de IA são proibitivas para controlar a desinformação”.

Shrivastava disse que o Twitter não revela seus métodos de filtragem de tweets, mas acredita-se que eles empregam um filtro Bloom, uma técnica de baixa memória inventada em 1970 para verificar se um elemento de dados específico, como um pedaço de código de computador, faz parte de um conjunto conhecido de elementos, como um banco de dados de vírus de computador conhecidos. Um filtro Bloom é garantido para encontrar todo o código que corresponda ao banco de dados, mas ele também registra alguns falsos positivos.

“Digamos que você identificou uma informação errada e quer ter certeza de que ela não se espalhe em tweets”, disse Shrivastava. “Um filtro Bloom permite que você verifique os tweets muito rapidamente, em um milionésimo de segundo ou menos”. Se ele diz que um tweet está limpo, que não corresponde a nada em seu banco de dados de desinformação, isso é 100% garantido. Portanto, não há nenhuma chance de OK’ing um tweet com informações errôneas conhecidas. Mas o filtro Bloom sinalizará tweets inofensivos uma fração do tempo”.

Nos últimos três anos, os pesquisadores ofereceram vários esquemas para usar a aprendizagem da máquina para aumentar os filtros Bloom e melhorar sua eficiência. O software de reconhecimento de idiomas pode ser treinado para reconhecer e aprovar a maioria dos tweets, reduzindo o volume que precisa ser processado com o filtro Bloom. O uso de classificadores de aprendizagem de máquina pode reduzir a sobrecarga computacional necessária para filtrar dados, permitindo que as empresas processem mais informações em menos tempo com os mesmos recursos.

“Quando as pessoas usam modelos de aprendizagem de máquinas hoje, elas desperdiçam muitas informações úteis que vêm do modelo de aprendizagem de máquinas”, disse Dai.

A abordagem típica é estabelecer um limite de tolerância e enviar tudo o que fica abaixo desse limite para o filtro Bloom. Se o limite de confiança é 85%, isso significa que a informação que o classificador considera segura com um nível de confiança de 80% está recebendo o mesmo nível de escrutínio que a informação sobre a qual tem apenas 10% de certeza.

“Embora não possamos confiar completamente no classificador de aprendizagem da máquina, ele ainda está nos dando informações valiosas que podem reduzir a quantidade de recursos do filtro Bloom”, disse Dai. “O que temos feito é aplicar esses recursos de forma probabilística”. Damos mais recursos quando o classificador está apenas 10% confiante contra um pouco menos quando está 20% confiante e assim por diante”. Pegamos todo o espectro do classificador e o resolvemos com todo o espectro de recursos que podem ser alocados a partir do filtro Bloom”.

Shrivastava disse que a necessidade reduzida de memória da Ada-BF se traduz diretamente em capacidade adicional para sistemas de filtragem em tempo real.

“Precisamos da metade do espaço”, disse ele. “Portanto, essencialmente, podemos lidar com o dobro da informação com o mesmo recurso”.

Referências

Bad news for fake news: New research helps combat social media misinformation

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *