Os desafios do processamento de linguagem natural e das mídias sociais

Os desafios do processamento de linguagem natural e das mídias sociais

O Processamento de Linguagem Natural é uma ferramenta poderosa para explorar opiniões nas mídias sociais, mas o processo tem seus próprios problemas.

Imagem em destaque

Processamento de Linguagem Natural é um campo da ciência da computação, mais especificamente um campo da Inteligência Artificial, que se preocupa em desenvolver computadores com a capacidade de perceber, compreender e produzir a linguagem humana.

A análise da linguagem tem sido, em grande parte, um campo qualitativo que depende de intérpretes humanos para encontrar significado no discurso. Por mais poderoso que seja, tem algumas limitações, a primeira das quais é o facto de os humanos terem preconceitos inconscientes que distorcem a sua compreensão da informação.

A outra questão, e a mais relevante para nós, é a capacidade limitada dos seres humanos para consumir dados, uma vez que a maioria dos seres humanos adultos só consegue ler sobre 200 a 250 palavras por minuto – os graduados universitários têm uma média de cerca de 300 palavras.

Para colocar esses números em perspectiva, um livro médio tem entre 90.000 e 100.000 palavras. Isso significa que um ser humano normal levará cerca de 70 horas para terminar um livro de tamanho normal. 100.000 palavras podem parecer muito, mas na verdade é uma fração muito pequena da quantidade de linguagem que é produzida todos os dias nas redes sociais.

O Twitter, uma mídia social construída com base em mensagens de 280 caracteres, tem em média 500 milhões de tweets por dia. Supondo cerca de 20 palavras por tweet, estamos analisando cerca de 100.000 livros de informação. E essa é apenas uma plataforma de mídia social.

Coletando Big Data

Qualquer pesquisador que se concentre nas redes sociais tem que lidar com grandes quantidades de dados. Coletar e analisar manualmente os dados é, na melhor das hipóteses, ineficiente e, na pior, uma completa perda de tempo. Então, qual é a solução?

Coletando dados programaticamente. A maioria das plataformas de mídia social possui APIs que permitem aos pesquisadores acessar seus feeds e obter amostras de dados. E mesmo sem API, web scraping é uma prática tão antiga quanto a própria internet, certo?

Web scraping refere-se à prática de buscar e extrair informações de páginas da web, seja manualmente ou por processos automatizados (o primeiro é muito mais comum que o segundo).

Infelizmente, o web scraping fica em uma área legal cinzenta. Facebook x Power Ventures Inc é um dos exemplos mais conhecidos de grandes empresas de tecnologia tentando combater essa prática. Nesse caso, a Power Ventures criou um site agregado que permitiu aos usuários agregar dados sobre si mesmos de diferentes serviços, incluindo LinkedIn, Twitter, Myspace e AOL.

Um dos maiores desafios ao trabalhar com mídias sociais é ter que gerenciar diversas APIs ao mesmo tempo, além de entender as limitações legais de cada país. Por exemplo, a Austrália é bastante negligente em relação ao web scraping, desde que não seja usado para coletar endereços de e-mail.

Outro desafio é compreender e navegar pelos níveis de contas e APIs dos desenvolvedores. A maioria dos serviços oferece níveis gratuitos com algumas limitações bastante importantes, como o tamanho de uma consulta ou a quantidade de informações que você pode coletar todos os meses.

Por exemplo, no caso do Twitter, a sandbox da API de pesquisa permite até 25.000 tweets por mês, enquanto uma conta premium oferece até 5 milhões. O primeiro é mais adequado para projetos de pequena escala ou prova de conceito, o último para projetos maiores.

Em outras palavras, qualquer pessoa interessada em coletar informações nas Redes Sociais deve:

  1. Entenda a lei relativa à coleta de dados
  2. Entenda como as contas de desenvolvedor de software e a API funcionam para cada plataforma
  3. Descubra o investimento potencial com base no escopo do projeto.

Compreendendo seu público

A natureza humana empurra indivíduos com ideias semelhantes uns para os outros. Preferimos compartilhar com pessoas que tenham os mesmos interesses que nós. Os sites de redes sociais apelam a diferentes grupos demográficos e as interações nestes espaços virtuais são moldadas tanto pelos seus comportamentos como pela cultura emergente.

O Processamento de Linguagem Natural é excelente na compreensão da sintaxe, mas a semiótica e o pragmatismo ainda são desafiadores, para dizer o mínimo. Em outras palavras, um computador pode compreender uma frase e até criar frases que façam sentido. Mas eles têm dificuldade em compreender o significado das palavras ou como a linguagem muda dependendo do contexto.

É por isso que os computadores têm tanta dificuldade em detectar sarcasmo e ironia. Na maior parte, isso não é problema. Por um lado, a quantidade de dados contendo sarcasmo é minúscula e, por outro, algumas ferramentas muito interessantes podem ajudar.

Ao treinar modelos de aprendizado de máquina para interpretar a linguagem das plataformas de mídia social, é muito importante compreender essas diferenças culturais. O Twitter, por exemplo, tem um perfil bastante reputação tóxicae por um bom motivo, é ali mesmo com o Facebook como um dos locais mais tóxicos na percepção de seus usuários.

Não deve ser nenhuma surpresa, então, que é mais provável que você encontre diferenças de opinião dependendo da plataforma com a qual trabalha. E, na verdade, essas diferenças são dados muito importantes.

Como um exemplo rápido, os pesquisadores de mercado precisam entender qual plataforma de mídia social atrai seu público-alvo. Não faz muito sentido investir tempo e recursos no acompanhamento de tendências em redes que produzirão pouca ou nenhuma informação valiosa.

Mais do que palavras

O crescimento exponencial de plataformas como Instagram e TikTok representa um novo desafio para o Processamento de Linguagem Natural. Vídeos e imagens como conteúdo gerado pelo usuário estão rapidamente se tornando populares, o que, por sua vez, significa que nossa tecnologia precisa se adaptar.

O reconhecimento facial e de voz mudará o jogo em breve, à medida que mais e mais criadores de conteúdo compartilham suas opiniões por meio de vídeos. Embora desafiador, esta é também uma grande oportunidade para a análise emocional, uma vez que as abordagens tradicionais dependem da linguagem escrita, sempre foi difícil avaliar a emoção por trás das palavras.

Embora ainda seja muito cedo para fazer uma estimativa fundamentada, se as grandes indústrias tecnológicas continuarem a pressionar por um “metaverso”, as redes sociais provavelmente mudarão e se adaptarão para se tornarem algo semelhante a um MMORPG ou um jogo como Club Penguin ou Second Life. Um espaço social onde as pessoas trocam informações livremente através de seus microfones e fones de ouvido de realidade virtual.

O Meta permitirá que os pesquisadores tenham acesso a essas interações? Se o passado servir de indicação, a resposta é não, mas, mais uma vez, ainda é muito cedo para dizer e o Metaverso está muito longe.

PNL e ciência de dados

Computadores mais rápidos e poderosos levaram a uma revolução nos algoritmos de processamento de linguagem natural, mas a PNL é apenas uma ferramenta em uma caixa maior. Os cientistas de dados precisam contar com a coleta de dados, a compreensão sociológica e apenas um pouco de intuição para tirar o melhor proveito dessa tecnologia.

É um momento emocionante para o Processamento de Linguagem Natural, e você pode apostar que nos próximos anos o campo continuará crescendo, fornecendo ferramentas melhores e mais refinadas para a compreensão de como os humanos se comunicam.

Fonte: BairesDev

Powrót do blogu

Zostaw komentarz

Pamiętaj, że komentarze muszą zostać zatwierdzone przed ich opublikowaniem.