Un equipo de investigadores de la Universidad Nacional de Investigación Nuclear MEPhI, el Centro Nacional de Investigación Kurchatov Institute y la Universidad Estatal de Voronezh han desarrollado un nuevo algoritmo de aprendizaje que permite que una red neuronal identifique el género de un escritor mediante el texto escrito en una computadora con hasta un 80 por ciento de precisión.
Este es un nuevo desarrollo en el campo de la lingüística computacional. La investigación fue financiada por una subvención de la Russian Science Foundation. Los hallazgos fueron publicados en el Procedia Ciencias de la Computación diario.
Muchos estudios científicos muestran que el estilo de escritura puede reflejar ciertas características de un escritor:género, rasgos fisiológicos de la personalidad, y nivel de educación. Los patrones del habla son una valiosa herramienta de psico-diagnóstico, ya menudo son utilizados por profesionales de recursos humanos y servicios de seguridad.
Al analizar el discurso de una persona, los investigadores pueden diagnosticar ciertas enfermedades como la demencia y la depresión, y la inclinación de la persona hacia el comportamiento suicida. La demanda de identificar ciertas características de la personalidad de un escritor está aumentando en el contexto del desarrollo de las comunicaciones por Internet:las empresas quieren saber a qué grupos demográficos les gustan sus productos y servicios.
Usando los valores numéricos para varios parámetros en un texto, investigadores en esta área (lingüistas, psicólogos, Expertos en TI) han creado modelos matemáticos para identificar ciertos rasgos en la personalidad del escritor. Usando redes neuronales, los investigadores analizaron la efectividad de varios algoritmos de aprendizaje automático para el análisis de texto.
Durante la investigación, los científicos compararon la precisión de la identificación de género por texto basándose en dos tipos de modelos basados en datos:primero, algoritmos de aprendizaje automático (como una máquina de vectores de soporte y aumento de gradiente), y, segundo, una red neuronal de aprendizaje profundo (como las redes neuronales convolucionales y las redes neuronales recurrentes de memoria a corto plazo a largo plazo).
"Con estos modelos avanzados de redes neuronales, hemos logrado grandes resultados en la identificación del género del escritor a partir del texto, en condiciones en las que el autor no intente ocultar su género, "dijo Alexander Sboyev, profesor asistente en MEPhI. "Nuestro siguiente paso es enseñar a la red neuronal a identificar el género de un escritor que deliberadamente intenta ocultarlo".
Por lo tanto, en los siguientes textos, publicado originalmente en sitios web de citas, la red neuronal identificó fácilmente el género del escritor 10 de cada 10 veces, a pesar de que los autores eran libres de firmar sus textos con un nombre propio del género opuesto.
Este texto fue escrito por una mujer:"Soy un guapo, en forma de hombre de 30 años. Tengo un trabajo bien remunerado en una gran empresa de petróleo y gas. Vivo en mi propio piso en Moscú, y también es dueño de una pequeña pero bonita casa en un pueblo italiano. Me gustan los deportes principalmente fútbol. Me encanta salir los fines de semana, No soporto los hogareños. Mi chica perfecta sería modesta y hermosa y tendría un cuerpo atractivo, basado en los estándares actuales. Ella compartiría mis intereses y no estaría celosa ni trataría de ponerme celosa. En el futuro, No planeo ser el único proveedor de una familia, ya que creo que cuando se trata de familias, tanto hombres como mujeres deben ganar el dinero. También me gustaría tener presupuestos separados. No toleraré las trampas ".
Este texto fue escrito por un hombre:"¡Hola! Estoy muy enojado, ¡muy! ¡¿Por qué sigues tratándonos así ?! Somos personas, también, ¡todos somos iguales! ¿Eres sexista? ¡No toleraré más esto! Voy a romper tu auto en pedazos; Rociaré pintura por todas partes. Tu solo espera, Tú, monstruo. Apesta ser tú ".
Esta investigación indicó que el enfoque basado en el uso de redes neuronales convolucionales y métodos de aprendizaje profundo para identificar el género de un escritor, es el más óptimo. El equipo de investigadores está trabajando actualmente para identificar la edad de un escritor.