El procesamiento del lenguaje natural es una herramienta poderosa para explorar opiniones en las redes sociales, pero el proceso tiene sus propios problemas.
El procesamiento del lenguaje natural es un campo de la informática, más específicamente un campo de la inteligencia artificial, que se ocupa del desarrollo de computadoras con la capacidad de percibir, comprender y producir el lenguaje humano.
El análisis del lenguaje ha sido en gran medida un campo cualitativo que depende de intérpretes humanos para encontrar significado en el habla. Por muy poderoso que sea, tiene algunas limitaciones, la primera de las cuales es el hecho de que los humanos tienen prejuicios inconscientes que distorsionan su comprensión de la información.
La otra cuestión, y la más relevante para nosotros, es la capacidad limitada de los seres humanos para consumir datos, ya que la mayoría de los seres humanos adultos sólo pueden leer entre 200 y 250 palabras por minuto (los graduados universitarios promedian unas 300 palabras).
Para poner estas cifras en perspectiva, un libro promedio tiene entre 90.000 y 100.000 palabras. Esto significa que a un ser humano normal le tomará unas 70 horas terminar un libro de tamaño normal. 100.000 palabras pueden parecer muchas, pero en realidad es una fracción muy pequeña de la cantidad de lenguaje que se produce todos los días en las redes sociales.
Twitter, una red social basada en mensajes de 280 caracteres, tiene un promedio de 500 millones de tweets por día . Suponiendo unas 20 palabras por tweet, estamos analizando unos 100.000 libros de información. Y esa es solo una plataforma de redes sociales.
Recopilación de grandes datos
Cualquier investigador que se centre en las redes sociales tiene que lidiar con grandes cantidades de datos. Recopilar y analizar datos manualmente es, en el mejor de los casos, ineficiente y, en el peor, una completa pérdida de tiempo. ¿Entonces, cuál es la solución?
Recopilar datos mediante programación. La mayoría de las plataformas de redes sociales tienen API que permiten a los investigadores acceder a sus feeds y datos de muestra. E incluso sin una API, el web scraping es una práctica tan antigua como Internet, ¿verdad?
El web scraping se refiere a la práctica de buscar y extraer información de páginas web, ya sea de forma manual o mediante procesos automatizados (el primero es mucho más común que el segundo).
Desafortunadamente, el web scraping cae en un área legal gris. Facebook contra Power Ventures Inc es uno de los ejemplos más conocidos de grandes empresas de tecnología que intentan combatir esta práctica. En este caso, Power Ventures creó un sitio web agregado que permitía a los usuarios agregar datos sobre sí mismos de diferentes servicios, incluidos LinkedIn, Twitter, Myspace y AOL.
Uno de los mayores desafíos al trabajar con redes sociales es tener que gestionar varias API al mismo tiempo, además de comprender las limitaciones legales de cada país. Por ejemplo, Australia es bastante laxa con respecto al web scraping, siempre y cuando no se utilice para recopilar direcciones de correo electrónico.
Otro desafío es comprender y navegar por los niveles de cuenta de desarrollador y las API. La mayoría de los servicios ofrecen niveles gratuitos con algunas limitaciones bastante importantes, como el tamaño de una consulta o la cantidad de información que puede recopilar cada mes.
Por ejemplo, en el caso de Twitter, el entorno de pruebas de la API de búsqueda permite hasta 25.000 tweets por mes, mientras que una cuenta premium ofrece hasta 5 millones. El primero es más adecuado para proyectos de pequeña escala o de prueba de concepto, el segundo para proyectos más grandes.
Es decir, cualquier persona interesada en recopilar información en las Redes Sociales deberá:
- Comprender la ley sobre la recopilación de datos.
- Comprender cómo funcionan las cuentas de desarrollador de software y la API para cada plataforma
- Descubra inversiones potenciales según el alcance del proyecto.
Entendiendo a tu audiencia
La naturaleza humana empuja a personas con ideas afines entre sí. Preferimos compartir con personas que tienen los mismos intereses que nosotros. Los sitios de redes sociales atraen a diferentes grupos demográficos, y las interacciones en estos espacios virtuales están determinadas tanto por sus comportamientos como por la cultura emergente.
El procesamiento del lenguaje natural sobresale en la comprensión de la sintaxis, pero la semiótica y el pragmatismo siguen siendo, como mínimo, un desafío. En otras palabras, una computadora puede comprender una oración e incluso crear oraciones que tengan sentido. Pero tienen dificultades para comprender el significado de las palabras o cómo cambia el lenguaje según el contexto.
Por eso a los ordenadores les cuesta tanto detectar el sarcasmo y la ironía. En su mayor parte, esto no es un problema. Por un lado, la cantidad de datos que contienen sarcasmo es minúscula y, por otro, algunas herramientas muy interesantes pueden ayudar.
Al entrenar modelos de aprendizaje automático para interpretar el lenguaje de las plataformas de redes sociales, es muy importante comprender estas diferencias culturales. Twitter, por ejemplo, tiene una reputación bastante tóxica y, con razón, está a la altura de Facebook como uno de los lugares más tóxicos en la percepción de sus usuarios.
No debería sorprender, entonces, que sea más probable encontrar diferencias de opinión dependiendo de la plataforma con la que trabaje. Y, de hecho, estas diferencias son datos muy importantes.
Como ejemplo rápido, los investigadores de mercado deben comprender qué plataforma de redes sociales atrae a su público objetivo. No tiene mucho sentido invertir tiempo y recursos en rastrear tendencias en redes que producirán poca o ninguna información valiosa.
Algo más que palabras
El crecimiento exponencial de plataformas como Instagram y TikTok representa un nuevo desafío para el procesamiento del lenguaje natural. Los vídeos y las imágenes como contenido generado por los usuarios se están volviendo populares rápidamente, lo que a su vez significa que nuestra tecnología debe adaptarse.
El reconocimiento facial y de voz pronto cambiará el juego a medida que más y más creadores de contenido compartan sus opiniones a través de videos. Aunque desafiante, esta también es una gran oportunidad para el análisis emocional, ya que los enfoques tradicionales se basan en el lenguaje escrito, siempre ha sido difícil evaluar la emoción detrás de las palabras.
Si bien todavía es demasiado pronto para hacer una suposición fundamentada, si las grandes industrias tecnológicas continúan presionando por un “metaverso”, las redes sociales probablemente cambiarán y se adaptarán para convertirse en algo parecido a un MMORPG o un juego como Club Penguin o Second Life. Un espacio social donde las personas intercambian información libremente a través de sus micrófonos y cascos de realidad virtual.
¿Meta permitirá a los investigadores acceder a estas interacciones? Si el pasado sirve de indicación, la respuesta es no, pero una vez más, todavía es demasiado pronto para saberlo y el Metaverso está muy lejos.
PNL y ciencia de datos
Computadoras más rápidas y poderosas han llevado a una revolución en los algoritmos de procesamiento del lenguaje natural, pero la PNL es solo una herramienta dentro de una caja más grande. Los científicos de datos deben confiar en la recopilación de datos, la comprensión sociológica y solo un poco de intuición para aprovechar esta tecnología al máximo.
Es un momento emocionante para el procesamiento del lenguaje natural y puede apostar que en los próximos años el campo seguirá creciendo, proporcionando herramientas mejores y más refinadas para comprender cómo se comunican los humanos.
Fuente: BairesDev