Invernalia. Crédito:mauRÍCIO santos (Unsplash, dominio publico)
Investigadores de la Vrije Universiteit Amsterdam y el Grupo de Humanidades de la Real Academia Holandesa evaluaron cuatro herramientas de vanguardia para reconocer nombres en el texto, para evaluar y mejorar su desempeño en la ficción popular. Encuentran soluciones para aumentar la capacidad de las herramientas para reconocer nombres en una novela con una precisión del 7% al 90%.
Las herramientas de procesamiento del lenguaje natural (PNL) se utilizan comúnmente en muchas aplicaciones del día a día, como Siri y Google, pero la efectividad de estas tecnologías no se comprende completamente. Investigadores de la Vrije Universiteit Amsterdam y del Grupo de Humanidades de la Real Academia Holandesa han realizado una evaluación exhaustiva de cuatro herramientas de reconocimiento de nombres diferentes en 40 novelas populares, incluyendo Juego de Tronos. Sus análisis, publicado en PeerJ Ciencias de la computación , destacar los tipos de nombres y textos que son particularmente difíciles de identificar para estas herramientas, así como las soluciones para mitigarlo. Además, extrajeron las redes sociales de las novelas para explorar las diferencias en la estructura de la historia. Estos conocimientos pueden ayudar a que estas tecnologías sean más sólidas frente a las diferencias de género, y puede ayudar, por ejemplo, a hacer que esta tecnología sea más útil para los periodistas que desean analizar grandes conjuntos de datos como los Papeles de Panamá.
Muchas herramientas de PNL se basan en el aprendizaje automático; es decir, se entrena un programa de computadora para identificar patrones en el texto basándose en ejemplos previamente alimentados. Para reconocer nombres en texto, por ejemplo, se alimenta de muchos artículos de periódicos en los que los seres humanos han marcado meticulosamente los nombres. Luego, el programa tiene la tarea de 'aprender' cómo se ve un nombre en función del contexto (como, está precedido por Mr) o la forma de la palabra (como que los nombres generalmente comienzan con una letra mayúscula en inglés). Ahora, el problema a la hora de aplicar un sistema de este tipo entrenado en periódicos a las novelas, Es que los autores de novelas tienen mucha más libertad en su narrativa que los periodistas que necesitan ceñirse a los hechos. Los autores de ficción pueden inventar sus propios nombres, como Tywin o R'hllor, o utilice nombres de caracteres descriptivos directamente del diccionario, como Grey Worm. Estos nombres no se comportan como nombres "normales", por tanto, los sistemas de PNL tienen dificultades para reconocerlos en un texto.
Visualización de la red que muestra que Dany / Daenerys no está cerca de otros personajes principales en 'A Game of Thrones'. Crédito:N. M. Dekker, CC BY-SA 4.0
Los experimentos realizados por Niels Dekker (Trifork B.V.), Tobias Kuhn (Vrije Universiteit Amsterdam) y Marieke van Erp (KNAW Humanities Cluster) también destacan la flexibilidad del lenguaje y cómo los nombres se contextualizan en las historias. Por ejemplo, es posible referirse a Daenerys Targaryen como Daenerys y ella, pero también se la conoce como Dany, Daenerys Stormborn, Madre de dragones, Khaleesi, el No Quemado y Mhysa. La red social creada para Juego de Tronos, ilustra, por ejemplo, que Dany es utilizada por sus amigos, y su nombre completo Daenerys solo por sus enemigos (en su ausencia).
La investigación descrita en esta publicación muestra que se debe prestar más atención al rendimiento de las herramientas de PNL y que todavía hay trabajo por hacer antes de que las computadoras puedan entender completamente el "texto".