• Home
  • Química
  • Astronomía
  • Energía
  • Naturaleza
  • Biología
  • Física
  • Electrónica
  •  science >> Ciencia >  >> Otro
    Cómo la IA podría ayudar a traducir el lenguaje escrito de las civilizaciones antiguas

    La OI inició expediciones arqueológicas a la antigua ciudad de Persépolis en la década de 1930, donde descubrieron decenas de miles de tablillas de arcilla que contenían escritura cuneiforme. Una colaboración entre la OI y el Departamento de Ciencias de la Computación utilizando un programa de aprendizaje automático podría permitir una traducción más rápida de estas tabletas. Crédito:la OI

    Hace veinticinco siglos, el "papeleo" del Imperio aqueménida de Persia se registró en tablillas de arcilla, de las cuales decenas de miles fueron descubiertas en 1933 en el Irán actual por arqueólogos del Instituto Oriental de la Universidad de Chicago. Por décadas, Los investigadores estudiaron minuciosamente y tradujeron estos documentos antiguos a mano, pero este proceso de descifrado manual es muy difícil, lento y propenso a errores.

    Desde la década de 1990, Los científicos han reclutado computadoras para ayudar, con un éxito limitado, debido a la naturaleza tridimensional de las tablillas y la complejidad de los caracteres cuneiformes. Pero un avance tecnológico en la Universidad de Chicago puede finalmente hacer la transcripción automatizada de estas tabletas, que revelan una rica información sobre la historia aqueménida. sociedad y lenguaje — posible, liberando a los arqueólogos para un análisis de alto nivel.

    Esa es la motivación detrás de DeepScribe, una colaboración entre investigadores de la OI y el Departamento de Ciencias de la Computación de UChicago. Con un conjunto de entrenamiento de más de 6, 000 imágenes anotadas del Archivo de Fortificaciones de Persépolis, el proyecto financiado por el Centro de Datos y Computación construirá un modelo que pueda "leer" tabletas aún sin analizar en la colección, y potencialmente una herramienta que los arqueólogos pueden adaptar a otros estudios de escritura antigua.

    "Si pudiéramos crear una herramienta que fuera flexible y extensible, que puede extenderse a diferentes scripts y períodos de tiempo, eso realmente sería un cambio de campo, "dijo Susanne Paulus, profesor asociado de Asiriología.

    "Es un buen problema de aprendizaje automático"

    La colaboración comenzó cuando Paulus, Sandra Schloen y Miller Prosser de la OI conocieron a Asst. El profesor Sanjay Krishnan del Departamento de Ciencias de la Computación en un evento del Neubauer Collegium sobre humanidades digitales. Schloen y Prosser supervisan OCHER, una plataforma de gestión de bases de datos respaldada por la OI para capturar y organizar datos de excavaciones arqueológicas y otras formas de investigación. Krishnan aplica técnicas de aprendizaje profundo e inteligencia artificial al análisis de datos, incluyendo video y otros tipos de datos complejos. La superposición fue evidente de inmediato para ambos lados.

    "Desde la perspectiva de la visión por computadora, es realmente interesante porque estos son los mismos desafíos a los que nos enfrentamos. La visión por computadora en los últimos cinco años ha mejorado significativamente; hace diez años, esto habría sido ondulado a mano, no hubiéramos llegado tan lejos ", Dijo Krishnan." Es un buen problema de aprendizaje automático, porque la precisión es objetiva aquí, tenemos un conjunto de entrenamiento etiquetado y entendemos el guión bastante bien y eso nos ayuda. No es un problema completamente desconocido ".

    En la foto aparecen puntos calientes que describen signos cuneiformes en una tablilla elamita del Archivo de Fortificaciones de Persépolis. Crédito:la OI

    Ese conjunto de capacitación se debe a más de 80 años de estudio minucioso por parte de investigadores de OI y UChicago y un reciente impulso para digitalizar imágenes de alta resolución de la colección de tabletas, actualmente de más de 60 terabytes y aún creciendo, antes de su regreso a Irán. Usando esta colección, Los investigadores crearon un diccionario del idioma elamita inscrito en las tablillas, y los estudiantes que aprenden a descifrar la escritura cuneiforme crearon una base de datos de más de 100, 000 "puntos de acceso, "o signos individuales identificados.

    Con recursos del Centro de Computación de Investigación UChicago, Krishnan usó este conjunto de datos anotado para entrenar un modelo de aprendizaje automático, similares a los utilizados en otros proyectos de visión artificial. Cuando se prueba en tabletas no incluidas en el conjunto de entrenamiento, el modelo pudo descifrar con éxito signos cuneiformes con aproximadamente un 80% de precisión. La investigación en curso tratará de aumentar ese número mientras examina qué representa el 20% restante.

    Mucho trabajo pesado digital

    Pero incluso el 80% de precisión puede ayudar inmediatamente a los esfuerzos de transcripción. Muchas de las tabletas describen transacciones comerciales básicas, similar a "una caja de recibos de Walmart, "Dijo Paulus. Y un sistema que no puede decidirse del todo puede ser útil.

    "Si la computadora pudiera simplemente traducir o identificar las partes altamente repetitivas y dejar que un experto complete los nombres de lugares difíciles o verbos o cosas que necesitan interpretación, que hace gran parte del trabajo, "dijo Paulus, el curador de la colección de tabletas en el OI. "Y si la computadora no puede tomar una decisión definitiva, si pudiera devolvernos las probabilidades o los cuatro primeros puestos, entonces un experto tiene un lugar para comenzar. Eso sería sorprendente."

    Aún más ambicioso, el equipo imagina DeepScribe como una herramienta de descifrado de propósito general que pueden compartir con otros arqueólogos. Quizás el modelo pueda ser reentrenado para lenguajes cuneiformes distintos al elamita, o puede hacer sugerencias informadas sobre el texto que se escribió en los fragmentos faltantes de las tablillas incompletas. Un modelo de aprendizaje automático también podría ayudar a determinar el origen de las tabletas y otros artefactos de procedencia desconocida. una tarea que actualmente se aborda mediante pruebas químicas.

    Proyectos similares financiados por CDAC están utilizando enfoques de visión por computadora para aplicaciones, como estudiar la biodiversidad en bivalvos marinos y desenredar el estilo del contenido en el trabajo artístico. La colaboración también espera inspirar asociaciones futuras entre la OI y el Departamento de Ciencias de la Computación, a medida que la arqueología digital se cruza cada vez más con enfoques computacionales avanzados.

    "Creo que ayudó a que algo que hubiera terminado en una conversación de cena se convirtiera en una colaboración real, ", Dijo Krishnan." Nos hizo hacer más que hablar ".


    © Ciencia https://es.scienceaq.com