Dime cómo escribes en redes sociales y te diré tu edad y sexo

Investigadores de la Universitat Politècnica de València y la empresa Autoritas Consulting han desarrollado una nueva herramienta que permite inferir el sexo y rango de edad de los autores de comentarios, posts, etc. de las redes sociales.

Entre sus aplicaciones, resultaría de gran utilidad en operaciones de seguridad o detección de posibles casos de pederastia. Y en otro ámbito, constituye una herramienta muy valiosa para las empresas, de cara a conocer la dinámica y segmentación del mercado y enfocar así sus acciones de marketing.

El trabajo fue publicado el pasado mes de junio en la revista Information Processing & Management.

«La información sobre sexo y edad de los usuarios de las redes sociales no siempre es accesible ni está explícita, y cuando lo está, puede ser falsa. La herramienta que hemos desarrollado permite descifrar esta información, aplicando para ello técnicas de análisis lingüístico computacional», destaca Paolo Rosso, investigador del Centro de Investigación Pattern Recognition and Human Language Technology de la Universitat Politècnica de València.

¿Cómo funciona?

Para inferir la información deseada, la herramienta desarrollada desde la UPV y Autoritas Consulting analiza el lenguaje utilizado por los usuarios de las redes, aplicando para ello la teoría de grafos. Analiza tiempos verbales empleados, categorías gramaticales más repetidas, estructura del discurso, tipología de expresiones utilizadas y el peso de las emociones. A partir de estos datos, es posible saber si detrás de un texto anónimo se encuentra un hombre o una mujer, y si es adolescente, joven o adulto.

«Tenemos un texto, de ahí extraemos las categorías gramaticales y construimos un grafo. Este se enriquece con las emociones expresadas, la polaridad de las palabras, los tipos de verbo y los tipos de sustantivo. Y luego se aplica la teoría de grafos para calcular la importancia de cada elemento en la estructura del discurso. Ante cada caso nuevo, utilizando un algoritmo de aprendizaje, se extrae su grafo y se da una predicción», explica Francisco Rangel, CTO en Autoritas Consulting.

La herramienta ya ha sido utilizada en casos de investigación policial de amenazas de bomba. «En estos casos, interesa hacer un seguimiento de esas cuentas, no sólo para ver de qué hablan, sino también ver qué perfil tienen sus autores; la herramienta ayuda también a captar perfiles falsos», concluyen los autores del trabajo.