Deepfakes, vídeos e áudio hiper-realistas criados usando inteligência artificial, representam uma ameaça crescente no mundo digital de hoje. Ao manipular ou fabricar conteúdo para fazê-lo parecer autêntico, os deepfakes podem ser usados para enganar espectadores, espalhar desinformação e manchar reputações. Seu uso indevido se estende à propaganda política, manipulação social, roubo de identidade e crimes cibernéticos.
À medida que a tecnologia deepfake se torna mais avançada e amplamente acessível, o risco de danos sociais aumenta. Estudar deepfakes é crucial para desenvolver métodos de detecção, aumentar a conscientização e estabelecer estruturas legais para mitigar os danos que eles podem causar nas esferas pessoal, profissional e global. Entender os riscos associados aos deepfakes e seu impacto potencial será necessário para preservar a confiança na mídia e na comunicação digital.
Combatendo a Ameaça dos Deepfakes
É aí que entra Chinmay Hegde, professor associado de Ciência da Computação e Engenharia e Engenharia Elétrica e de Computação na NYU Tandon. "De modo geral, estou interessado na segurança da IA em todas as suas formas. E quando uma tecnologia como a IA se desenvolve tão rapidamente e fica boa tão rapidamente, é uma área propícia para exploração por pessoas que causariam danos", disse Hegde.
Hegde, cuja área de especialização é em processamento de dados e aprendizado de máquina, concentra sua pesquisa no desenvolvimento de algoritmos rápidos, robustos e certificáveis para diversos problemas de processamento de dados encontrados em aplicações que abrangem imagens e visão computacional, transporte e design de materiais. Na Tandon, ele trabalhou com o professor de Ciência da Computação e Engenharia Nasir Memon, que despertou seu interesse em deepfakes.
"Mesmo há apenas seis anos, a tecnologia de IA generativa era muito rudimentar. Uma vez, um dos meus alunos veio e mostrou como o modelo era capaz de fazer um círculo branco em um fundo escuro, e todos nós ficamos realmente impressionados com isso na época. Agora você tem falsificações em alta definição de Taylor Swift, Barack Obama, o Papa — é impressionante o quão longe essa tecnologia chegou. Minha opinião é que ela pode muito bem continuar a melhorar a partir daqui", disse ele.
Técnicas de Desafio-Resposta para Detecção de Deepfakes
Hegde ajudou a liderar uma equipe de pesquisa da Escola de Engenharia Tandon da NYU que desenvolveu uma nova abordagem para combater a crescente ameaça de deepfakes em tempo real (RTDFs) – áudio e vídeo falsos sofisticados gerados por inteligência artificial que podem imitar de forma convincente pessoas reais em chamadas de voz e vídeo em tempo real.
Em dois artigos separados, equipes de pesquisa mostram como técnicas de "desafio-resposta" podem explorar as limitações inerentes dos atuais pipelines de geração de RTDF, causando degradações na qualidade das personificações que revelam seu engano.
Detecção de Deepfakes em Vídeo em Tempo Real
Em um artigo intitulado "GOTCHA: Detecção de Deepfake em Vídeo em Tempo Real via Desafio-Resposta", os pesquisadores desenvolveram um conjunto de oito desafios visuais projetados para sinalizar aos usuários quando eles não estão interagindo com uma pessoa real.
"A maioria das pessoas está familiarizada com o CAPTCHA, o desafio-resposta online que verifica se são seres humanos reais. Nossa abordagem espelha essa tecnologia, essencialmente fazendo perguntas ou solicitações às quais o RTDF não pode responder adequadamente", disse Hegde, que liderou a pesquisa em ambos os artigos.
A equipe de pesquisa de vídeo criou um conjunto de dados de 56.247 vídeos de 47 participantes, avaliando desafios como movimentos de cabeça e obscurecimento ou cobertura deliberada de partes do rosto. Avaliadores humanos atingiram cerca de 89 por cento da pontuação Area Under the Curve (AUC) na detecção de deepfakes (mais de 80 por cento é considerado muito bom), enquanto modelos de aprendizado de máquina atingiram cerca de 73 por cento.
"Desafios como mover rapidamente uma mão na frente do rosto, fazer expressões faciais dramáticas ou mudar repentinamente a iluminação são simples para humanos reais, mas muito difíceis para os sistemas deepfake atuais replicarem de forma convincente quando solicitados a fazê-lo em tempo real", disse Hegde.
Detecção de Deepfakes de Áudio
Em outro artigo chamado "Marcação assistida por IA de chamadas de áudio deepfake usando desafio-resposta", pesquisadores criaram uma taxonomia de 22 desafios de áudio em várias categorias. Alguns dos mais eficazes incluíam sussurrar, falar com a mão "em concha" sobre a boca, falar em tom alto, pronunciar palavras estrangeiras e falar com música de fundo ou discurso.
"Mesmo os sistemas de clonagem de voz de última geração lutam para manter a qualidade quando solicitados a executar essas tarefas vocais incomuns na hora", disse Hegde. "Por exemplo, sussurrar ou falar em um tom anormalmente alto pode degradar significativamente a qualidade de deepfakes de áudio."
O estudo de áudio envolveu 100 participantes e mais de 1,6 milhões de amostras de áudio deepfake. Ele empregou três cenários de detecção: humanos sozinhos, IA sozinha e uma abordagem colaborativa humano-IA. Avaliadores humanos alcançaram cerca de 72 por cento de precisão na detecção de falsificações, enquanto a IA sozinha teve um desempenho melhor com 85 por cento de precisão.
A abordagem colaborativa, onde os humanos faziam julgamentos iniciais e podiam revisar suas decisões após ver as previsões da IA, alcançou cerca de 83 por cento de precisão. Esse sistema colaborativo também permitiu que a IA fizesse as chamadas finais em casos em que os humanos estavam incertos.
Tornando a Detecção Prática e Robusta
Os pesquisadores enfatizam que suas técnicas são projetadas para serem práticas para uso no mundo real, com a maioria dos desafios levando apenas segundos para serem concluídos. Um desafio de vídeo típico pode envolver um gesto rápido com a mão ou uma expressão facial, enquanto um desafio de áudio pode ser tão simples quanto sussurrar uma frase curta.
"A chave é que essas tarefas são fáceis e rápidas para pessoas reais, mas difíceis para a IA falsificar em tempo real", disse Hegde. "Também podemos randomizar os desafios e combinar múltiplas tarefas para segurança extra."
À medida que a tecnologia deepfake continua a avançar, os pesquisadores planejam refinar seus conjuntos de desafios e explorar maneiras de tornar a detecção ainda mais robusta. Eles estão particularmente interessados em desenvolver desafios "compostos" que combinem múltiplas tarefas simultaneamente.
"Nosso objetivo é dar às pessoas ferramentas confiáveis para verificar com quem elas realmente estão falando online, sem interromper conversas normais", disse Hegde. "À medida que a IA fica melhor em criar falsificações, precisamos melhorar em detectá-las. Esses sistemas de desafio-resposta são um passo promissor nessa direção."