Pseudograndes 5 puntuaciones para siete figuras principales de los libros de Harry Potter. Estos puntajes son percentiles basados en una muestra de 100 figuras que aparecen en la serie de libros. Crédito:Arthur M. Jacobs.
Arthur Jacobs, profesor e investigador de la Freie Universität Berlin, ha desarrollado recientemente SentiArt, una nueva técnica de aprendizaje automático para realizar análisis de sentimientos de textos literarios, así como figuras ficticias y no ficticias. En su papel, configurado para ser publicado por Fronteras en robótica e inteligencia artificial , aplicó esta herramienta a pasajes y personajes de los libros de Harry Potter.
Jacobs tiene experiencia en neurolingüística, una rama de la lingüística que explora los mecanismos neuronales asociados con la adquisición del lenguaje, comprensión y expresión. En su trabajo anterior, A menudo ha investigado cómo se podrían utilizar las herramientas de aprendizaje automático para analizar y comprender mejor el lenguaje humano. Está particularmente interesado en lo que él llama poética computacional, un área de estudio que se enfoca en el uso de herramientas computacionales para comprender el contenido literario.
"En 2011, Escribí un libro con el poeta austríaco Raoul Schrott llamado 'Cerebro y poesía , 'donde especulamos que ayudaría a desarrollar herramientas de análisis de sentimientos para textos literarios y poesía, no solo para críticas de películas o tweets de Trump, que parece ser el estándar de oro en el análisis de sentimiento clásico, Jacobs le dijo a TechXplore. "También queríamos desarrollar una herramienta que pudiera predecir datos neuronales y de comportamiento humanos, no solo los autoinformes recopilados a través de Amazon Turk ".
En su nuevo estudio, Jacobs intentó poner en práctica algunas de las ideas introducidas en su trabajo anterior mediante el desarrollo de una herramienta para analizar el sentimiento en los textos literarios. La técnica que propuso, llamado SentiArt, utiliza modelos de espacio vectorial y guiados por la teoría, listas de etiquetas validadas empíricamente para calcular la valencia de palabras individuales en un texto. Los modelos de espacio vectorial son representaciones de documentos de texto como vectores de identificadores, que se utilizan a menudo para filtrar, recuperar u organizar información.
"SentiArt es una herramienta muy simplista que pueden utilizar los no expertos para comparar simplemente las palabras en su texto de prueba (es decir, el texto en el que quieren hacer un análisis de sentimiento) con una hoja de Excel que pueden descargar de mi página de inicio de forma gratuita, ", Explicó Jacobs." En principio, la herramienta debería funcionar en cualquier idioma para el que pueda descargar los llamados modelos de espacio vectorial de Facebook, en la página web fastText. Si bien mi estudio se centra en inglés y alemán, también puedes usarlo en malayo, Farsi o un dialecto chino, y una multitud de otros idiomas, ya que fastText tiene modelos de espacio vectorial para más de 290 idiomas ".
Jacobs destaca que SentiArt es bastante fácil de usar, y agregó que pudo enseñar a 30 estudiantes de literatura alemana cómo usarlo durante una clase de una hora. En su trabajo reciente, probó la precisión de la herramienta utilizando datos recopilados durante un estudio neurocognitivo y luego la usó para calcular perfiles emocionales y de figuras de personalidad para algunos de los personajes principales de Harry Potter, incluido Voldemort, Snape, Hermione Hagrid, Harry, Dumboldore y Dobby.
Curiosamente, Calculó las figuras emocionales y los perfiles de personalidad de estos personajes basándose en la teoría de la personalidad de los 'cinco grandes', un constructo establecido en la investigación en psicología. La teoría de los 'cinco grandes' se usa generalmente para medir aproximadamente los rasgos de personalidad de las personas en función de cinco dimensiones clave, a saber, apertura, escrupulosidad, extraversión, amabilidad y estabilidad emocional.
Jacobs llevó a cabo una serie de análisis comparando la herramienta que desarrolló con otros clasificadores de aprendizaje automático para el análisis de sentimientos, como Vader y Hu-Liu. SentiArt se desempeñó notablemente bien al predecir el potencial emocional de los pasajes de texto de los libros de Harry Potter, al mismo tiempo que hace predicciones plausibles sobre el perfil emocional y de personalidad de los personajes de ficción. Finalmente, la herramienta logró una prometedora precisión de validación cruzada al clasificar 100 figuras ficticias en "buenas" o "malas".
"El documento tiene algunas aplicaciones limitadas y está en dos idiomas (alemán / inglés), así que antes de que pueda especular sobre el potencial de la aplicación, ser un científico experimental, Me gustaría tener muchos más estudios de validación cruzada utilizando datos humanos, ", Explicó Jacobs." Así es como me entrenan, aunque generalmente en el procesamiento del lenguaje natural (NLP) o en la comunidad de aprendizaje automático, estas no son las principales prioridades. Pero como neurolingüistas, siempre intentamos probar las predicciones de un algoritmo con datos humanos antes de especular sobre para qué es realmente útil ".
Aunque Jacobs enfatiza la necesidad de más estudios para determinar la efectividad y generalización de SentiArt, la herramienta que desarrolló podría eventualmente tener numerosas aplicaciones interesantes. Por ejemplo, podría aplicarse en campos como la lingüística computacional, psicología de la personalidad, humanidades digitales y quizás incluso en entornos clínicos. Puede, en principio, también se aplicará a personajes no ficticios que aparezcan en Wikipedia o Wikinews, p.ej. Winston Churchill, Marilyn Monroe o Angela Merkel.
"El modelo se ajusta a un primer conjunto de datos empíricos, las calificaciones de Harry Potter, es definitivamente alentador, ", Agregó Jacobs." Además, dos de las herramientas de análisis de sentimientos más populares con las que lo comparé no obtienen mejores resultados en este contexto, así que creo que este es un logro que merece publicación. Creo que mostrar el perfil de personaje emocional de Voldemort o Harry Potter fue un buen truco, pero por supuesto, la herramienta también podría aplicarse a personajes de no ficción ".
Jacobs ahora planea llevar a cabo más estudios de validación cruzada que prueben las predicciones de su modelo con datos humanos. Espera que los equipos de otras universidades hagan lo mismo, ya sea utilizando datos recopilados a través de Amazon Turk o datos de neuroimagen, como en el estudio de "Harry Potter" realizado en su laboratorio. Además, Le gustaría explorar formas de mejorar el rendimiento de las herramientas de análisis de sentimientos en tareas que utilizan regresores de aprendizaje automático en lugar de clasificadores.
"Los enfoques de aprendizaje automático generalmente se dividen en dos tipos diferentes, "Explicó Jacobs." Los primeros son enfoques de clasificación, que clasifican los datos en categorías, como positivo o negativo. Aquí es donde mi algoritmo funciona muy bien. La dura prueba no es la clasificación, es regresión, lo que implica ajustar las predicciones de un algoritmo a datos humanos continuos, such as ratings on a scale from one to 10. Few people in sentiment analysis use regressors, especially for literary texts, because accuracy tends to drop, por ejemplo, from over 90 percent to about 30 percent to 50 percent. I would like to see more work testing this, and once more empirical data has been published, I will try to improve parts of the algorithm in agreement with this new data."
In addition to his research endeavors, Jacobs will soon start teaching natural language programming (NLP) and machine learning as part of a new data science course at Freie Universität Berlin. His hope is to train new generations of data scientists to value the collection of empirical human data related to reading literature and poetry just as much as publishing code or predicting particular things.
© 2019 Science X Network