Lectura 1, Más de 400 ediciones de “Robinson Crusoe” en un verano es imposible. Entonces, un equipo de estudiantes intentó capacitar a las computadoras para que lo hicieran por ellos. Crédito:Blog de investigación de Duke
Desde que el relato sobre el naufragio de Daniel Defoe "Robinson Crusoe" se publicó por primera vez hace casi 300 años, se han publicado miles de ediciones y versiones derivadas, en cientos de idiomas.
Un equipo de investigación dirigido por Grant Glass, un doctorado estudiante de inglés y literatura comparada en la Universidad de Carolina del Norte en Chapel Hill, quería saber cómo cambió la historia a medida que pasaba por varias ediciones, imitaciones y traducciones, y ver qué partes resistieron la prueba del tiempo.
Leerlos todos a un ritmo de uno al día llevaría años. En lugar de, los investigadores están entrenando computadoras para que lo hagan por ellos.
Este verano, El equipo de Glass en el programa de investigación de verano Data + utilizó algoritmos informáticos y técnicas de aprendizaje automático para examinar 1, 482 versiones de texto completo de Robinson Crusoe, compilado a partir de archivos en línea.
"Muchas veces pensamos que un libro está escrito en piedra, "Dijo Glass." Pero un proyecto como este muestra que es complicado. Hay mucha variación ".
"Cuando tomas un libro, es importante saber qué copia es, porque eso puede afectar tu forma de pensar sobre la historia, "Dijo Glass.
Obtener los textos en una forma que una computadora pudiera procesar resultó ser la mitad de la batalla, dijo Orgil Batzaya, miembro del equipo de pregrado, una doble especialización de Duke en matemáticas e informática.
Los libros ya fueron escaneados y publicados en línea. por lo que los estudiantes usaron software para descargar los escaneos de Internet, a través de un proceso llamado "raspado". Pero procesar las páginas escaneadas de viejos libros impresos, algunos de los cuales tenían manchas, motas o tipo desgastado, y convertirlos a un formato legible por máquina resultó más complicado de lo que pensaban.
El software luchó por decodificar la extraña ortografía ("entregado, "" deseado, "" persuasiones, "" orilla "versus" orilla "), diferentes tipos de letra entre ediciones, y otras peculiaridades.
Caracteres especiales exclusivos de las fuentes del siglo XVIII, como la curiosa versión en forma de f de la letra "s, "haz que incluso los humanos lean" diftance "y" poffible "con un ceceo mental.
Sus primeros intentos dieron como resultado un galimatías. "El reconocimiento óptico de caracteres resultante era completamente inutilizable, ", dijo Gabriel Guedes, miembro del equipo y senior de Duke.
En una sesión de carteles de Data + en agosto, Guedes, Batzaya y el doble de historia e informática, Lucian Li, presentaron sus resultados iniciales:una colección de coloridos diagramas de dispersión, mapas, diagramas de flujo y gráficos de líneas.
Guedes señaló grupos de puntos en un gráfico de red. "Aquí, las ediciones rojas son americanas, las ediciones azules son del Reino Unido, ", Dijo Guedes." El gráfico de red reconoce la similitud entre todas estas ediciones y las agrupa ".
Una vez que convirtieron las páginas escaneadas en textos legibles por máquina, el equipo los introdujo en un algoritmo de aprendizaje automático que mide la similitud entre documentos.
El algoritmo toma fragmentos de textos:oraciones, párrafos incluso novelas enteras, y las convierte en vectores de alta dimensión.
Creando esta representación numérica de cada libro, Guedes dijo, hizo posible realizar operaciones matemáticas en ellos. Sumaron los vectores de cada libro para encontrar su suma, calculó la media, y miró para ver qué edición se acercaba más a la edición "promedio". Resultó ser una versión de Robinson Crusoe publicada en Glasgow en 1875.
También analizaron la importancia de puntos específicos de la trama para determinar la cercanía de una edición dada a la edición "promedio":¿qué pasa con el momento en que Crusoe ve una huella en la arena y se da cuenta de que no está solo? O el momento en que Crusoe y Friday, después de salir de la isla, luchar contra los lobos hambrientos en los Pirineos?
Los resultados del equipo pueden ser discordantes para aquellos que no están acostumbrados a ver 300 años de publicación reducidos a un gráfico de barras. Pero al usar computadoras para comparar miles de libros a la vez, Los estudiosos de las "humanidades digitales" dicen que es posible rastrear patrones y tendencias a gran escala que los humanos que estudian detenidamente libros individuales no pueden.
"Esto es realmente algo que solo una computadora puede hacer, "Guedes dijo, apuntando a un mapa de lapso de tiempo que muestra cómo la historia de Crusoe se extendió por todo el mundo, construido a partir de datos sobre el lugar y la fecha de publicación de 15, 000 ediciones.
"Es una forma de 'lectura a distancia', ", Dijo Guedes." Usas esta enorme cantidad de información para ayudar a sacar conclusiones sobre el historial de publicaciones, el movimiento de ideas, y el conocimiento en general a lo largo del tiempo ".