• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  •  science >> Ciencia >  >> Física
    Textos como redes:¿Cuántas palabras son suficientes para identificar a un autor?

    El autor de un texto sin firmar se puede identificar analizando la relación entre unas pocas palabras del texto, como lo muestran los físicos estadísticos del Instituto de Física Nuclear de la Academia de Ciencias de Polonia en Cracovia. (Fuente:IFJ PAN) Crédito:IFJ PAN

    Las personas son más originales de lo que piensan, lo que sugiere un método de estilometría de análisis de textos literarios propuesto por científicos del Instituto de Física Nuclear de la Academia Polaca de Ciencias. La individualidad del autor se puede ver en las conexiones entre no más de una docena de palabras en un texto en inglés. Resulta que en lenguas eslavas, la identificación de autoría requiere incluso menos palabras, y es más seguro.

    Los investigadores buscaron una solución al problema de verificar la autoría de textos históricos conocidos solo a partir de fragmentos, la identificación del plagio, y problemas similares. En muchos casos, Los métodos estilométricos tradicionales fracasan o no conducen a conclusiones suficientemente fiables. En Ciencias de la información , Los científicos del Instituto de Física Nuclear de la Academia de Ciencias de Polonia (FIP PAN) en Cracovia presentan ahora su propia herramienta estadística para el análisis estilométrico. Construido con el uso de gráficos, analiza la estructura de los textos de una manera cualitativamente nueva.

    "Las conclusiones de nuestra investigación son, Por un lado, alentador. Indican que la individualidad de cualquier persona se manifiesta claramente en la forma en que utiliza un número sorprendentemente pequeño de palabras. Pero también hay un lado oscuro. Como resulta que la gente es tan original, será más fácil identificar a las personas por sus declaraciones, "dice el profesor Stanislaw Drozdz de la Universidad Tecnológica de Cracovia.

    Estilometría, la ciencia que se ocupa de las características estadísticas del estilo de los textos, se basa en la observación de que cada persona usa el mismo idioma de formas ligeramente diferentes. Algunos tienen un vocabulario más amplio, otros más estrechos, algunos prefieren ciertas frases y cometen errores, otros evitan la repetición y son puristas lingüísticos. Y en texto escrito, también difieren en la forma en que usan la puntuación. En el enfoque estilométrico típico, las características básicas de un texto generalmente se examinan, incluida la frecuencia de aparición de palabras individuales, mientras que la puntuación se ignora. Se realizan análisis para el texto estudiado y para textos escritos por autores potencialmente reconocidos. Se considera creador la persona cuyas obras tienen parámetros con los valores más cercanos a los obtenidos para el material que se identifica.

    "Sugerimos que los rasgos característicos del estilo se pudieran representar en una representación en red del texto, usando gráficos, "explica Tomasz Stanisz, Doctor. estudiante de la FIP PAN y primer autor de la publicación. "El gráfico es una colección de puntos o vértices en el gráfico, conectado por líneas, es decir, los bordes del gráfico. En el caso más simple, en la llamada red no ponderada, los vértices corresponden a palabras individuales y están conectados por bordes si y solo si dos palabras dadas han aparecido adyacentes entre sí al menos una vez en el texto. Por ejemplo, por la frase 'Jane tiene hambre, 'el gráfico tendría tres vértices, uno por cada palabra, pero solo habria dos aristas, uno entre 'Jane' y 'es, 'el otro entre' está 'y' hambriento '".

    Mientras construyen sus herramientas estilométricas, los investigadores probaron diferentes tipos de gráficos. Los mejores resultados se obtuvieron para gráficos ponderados, es decir, aquellos en los que cada borde lleva información sobre el número de ocurrencias de su conexión correspondiente entre palabras. Dos parámetros resultaron ser los más útiles en tales redes:el grado de nodo y el coeficiente de agrupamiento. El primero describe el número de aristas que provienen de un nodo dado y está directamente relacionado con el número de apariciones de una palabra dada en el texto. Sucesivamente, el coeficiente de agrupamiento describe la probabilidad de que dos palabras conectadas por un borde con una palabra dada también estén conectadas con un borde entre sí.

    Utilizando herramientas estadísticas preparadas de esta manera, los físicos con sede en Cracovia examinaron 96 libros:seis novelas de ocho autores ingleses bien conocidos (Austen, Conrad, Defoe, Dickens, Doyle, Eliot, Orwell y Twain) y ocho autores polacos (Korczak, Kraszewski, Justicia, Orzeszkowa, Prus, Reymont, Sienkiewicz y Zeromski). Los autores incluyeron a dos ganadores del Premio Nobel de Literatura (Wladyslaw Reymont y Henryk Sienkiewicz). Todos los textos se obtuvieron de recursos de Internet:Proyecto Gutenberg, Wikisource y Wolne Lektury. Luego, el grupo del PAN de la FIP verificó la confiabilidad con la que se pudo determinar la autoría de 12 obras seleccionadas al azar en un idioma, tratar el resto del conjunto de obras como material comparativo.

    "En el caso de los textos en inglés, identificamos correctamente a los autores en casi el 90 por ciento de los casos. Además, para lograr el éxito, era necesario rastrear las conexiones entre solo 10 a 12 palabras del texto examinado. Contrariamente a la intuición ingenua, un aumento adicional en el número de palabras estudiadas no aumentó significativamente la efectividad del método, "dice Stanisz.

    En polaco, la determinación de la autoría resultó ser aún más simple:se requería analizar solo de cinco a seis palabras. Notablemente, a pesar de que el conjunto de palabras significativas era la mitad que en inglés, la probabilidad de identificación correcta se incrementó hasta en un 95 por ciento. Tan alta precisión de diagnóstico, sin embargo, solo se logró cuando los signos de puntuación también se trataron como palabras separadas. En ambos idiomas, omitir la puntuación resultó en una reducción significativa en el número de conjeturas correctas. El papel observado de la puntuación es otra confirmación de las conclusiones de una publicación de 2017 del grupo del profesor Drozdz, en el que se demostró que la puntuación juega un papel en el lenguaje tan importante como las palabras mismas.

    "En comparación con el inglés, El polaco parece dar mayores posibilidades de revelar el estilo del autor. Creemos que las otras lenguas eslavas se caracterizan por características similares. El inglés es un idioma posicional, lo que significa que el orden de las palabras en una oración es importante. Este tipo de lenguaje deja menos espacio para un estilo de expresión individual que los idiomas eslavos, en que inflexión, o variación, determina el papel de una palabra o frase en una oración. Esto permite una mayor libertad para organizar el orden de las palabras en una oración, mientras su significado permanece sin cambios, "dice el profesor Drozdz.

    © Ciencia https://es.scienceaq.com